Pebblo Safe DocumentLoader

Pebblo는 개발자가 조직의 규정 준수 및 보안 요구 사항에 대한 걱정 없이 안전하게 데이터를 로드하고 Gen AI 앱을 배포할 수 있도록 합니다. 이 프로젝트는 로드된 데이터에서 발견된 의미론적 주제 및 엔티티를 식별하고 UI 또는 PDF 보고서에 요약합니다.

Pebblo는 두 가지 구성 요소로 이루어져 있습니다.

LangChain용 Pebblo Safe DocumentLoader
Pebblo Server

이 문서는 기존 LangChain DocumentLoader를 Pebblo Safe DocumentLoader로 보강하여 Gen-AI LangChain 애플리케이션에 수집되는 주제 및 엔티티 유형에 대한 심층적인 데이터 가시성을 얻는 방법을 설명합니다. Pebblo Server에 대한 자세한 내용은 pebblo server 문서를 참조하세요. Pebblo Safeloader는 LangChain DocumentLoader에 대한 안전한 데이터 수집을 가능하게 합니다. 이는 문서 로더 호출을 Pebblo Safe DocumentLoader로 래핑하여 수행됩니다. 참고: pebblo의 기본(localhost:8000) URL이 아닌 다른 URL에서 pebblo 서버를 구성하려면 PEBBLO_CLASSIFIER_URL 환경 변수에 올바른 URL을 입력하세요. 이는 classifier_url 키워드 인수를 사용하여 구성할 수도 있습니다. 참조: server-configurations

문서 로딩에 Pebblo를 활성화하는 방법은?

CSVLoader를 사용하여 추론을 위해 CSV 문서를 읽는 LangChain RAG 애플리케이션 스니펫을 가정합니다. 다음은 CSVLoader를 사용한 문서 로딩 스니펫입니다.

from langchain_community.document_loaders import CSVLoader

loader = CSVLoader("data/corp_sens_data.csv")
documents = loader.load()
print(documents)

위 스니펫에 몇 줄의 코드 변경으로 Pebblo SafeLoader를 활성화할 수 있습니다.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
)
documents = loader.load()
print(documents)

Pebblo 클라우드 서버로 의미론적 주제 및 신원 전송

pebblo-cloud로 의미론적 데이터를 전송하려면 PebbloSafeLoader에 인수로 api-key를 전달하거나, 또는 PEBBLO_API_KEY 환경 변수에 api-key를 입력하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    api_key="my-api-key",  # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
)
documents = loader.load()
print(documents)

로드된 메타데이터에 의미론적 주제 및 신원 추가

로드된 문서의 메타데이터에 의미론적 주제 및 의미론적 엔티티를 추가하려면 load_semantic을 True로 설정하거나, 또는 새 환경 변수 PEBBLO_LOAD_SEMANTIC을 정의하고 True로 설정하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    api_key="my-api-key",  # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
    load_semantic=True,  # Load semantic data (Optional, default is False, can be set in the environment variable PEBBLO_LOAD_SEMANTIC)
)
documents = loader.load()
print(documents[0].metadata)

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

anonymize_snippets를 True로 설정하여 VectorDB 및 생성된 보고서로 들어가는 스니펫에서 모든 개인 식별 정보(PII)를 익명화합니다.

참고: _Pebblo Entity Classifier_는 개인 식별 정보(PII)를 효과적으로 식별하며 지속적으로 발전하고 있습니다. 재현율이 아직 100%는 아니지만 꾸준히 개선되고 있습니다. 자세한 내용은 Pebblo Entity Classifier docs를 참조하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    anonymize_snippets=True,  # Whether to anonymize entities in the PDF Report (Optional, default=False)
)
documents = loader.load()
print(documents[0].metadata)

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

문서 로딩에 Pebblo를 활성화하는 방법은?

Pebblo 클라우드 서버로 의미론적 주제 및 신원 전송

로드된 메타데이터에 의미론적 주제 및 신원 추가

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

Popular Providers

Integrations by component

​문서 로딩에 Pebblo를 활성화하는 방법은?

​Pebblo 클라우드 서버로 의미론적 주제 및 신원 전송

​로드된 메타데이터에 의미론적 주제 및 신원 추가

​모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

문서 로딩에 Pebblo를 활성화하는 방법은?

Pebblo 클라우드 서버로 의미론적 주제 및 신원 전송

로드된 메타데이터에 의미론적 주제 및 신원 추가

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화