Skip to main content
문서 로더는 다양한 소스(Slack, Notion, Google Drive 등)에서 데이터를 읽어 LangChain의 Document 형식으로 변환하는 표준 인터페이스를 제공합니다. 이를 통해 소스에 관계없이 데이터를 일관되게 처리할 수 있습니다. 모든 문서 로더는 BaseLoader 인터페이스를 구현합니다.

인터페이스

각 문서 로더는 고유한 매개변수를 정의할 수 있지만, 공통 API를 공유합니다:
  • .load() – 모든 문서를 한 번에 로드합니다.
  • .lazy_load() – 문서를 지연 방식으로 스트리밍하며, 대용량 데이터셋에 유용합니다.
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # Integration-specific parameters here
)

# Load all documents
documents = loader.load()

# For large datasets, lazily load documents
for document in loader.lazy_load():
    print(document)

카테고리별

웹페이지

다음 문서 로더를 사용하면 웹페이지를 로드할 수 있습니다.
문서 로더설명패키지/API
Weburllib과 BeautifulSoup을 사용하여 HTML 웹페이지를 로드하고 파싱합니다Package
UnstructuredUnstructured를 사용하여 웹페이지를 로드하고 파싱합니다Package
RecursiveURL루트 URL에서 모든 하위 링크를 재귀적으로 스크래핑합니다Package
Sitemap주어진 사이트맵의 모든 페이지를 스크래핑합니다Package
SpiderLLM 준비 데이터를 반환하는 크롤러 및 스크래퍼입니다API
Firecrawl로컬로 배포할 수 있는 API 서비스입니다API
DoclingDocling을 사용하여 웹페이지를 로드하고 파싱합니다Package
Hyperbrowser헤드리스 브라우저를 실행하고 확장하기 위한 플랫폼으로, 모든 사이트를 스크래핑/크롤링하는 데 사용할 수 있습니다API
AgentQLAgentQL 쿼리 또는 자연어 프롬프트를 사용하여 모든 웹페이지에서 웹 상호 작용 및 구조화된 데이터 추출을 수행합니다API

PDF

다음 문서 로더를 사용하면 PDF 문서를 로드할 수 있습니다.
문서 로더설명패키지/API
PyPDFpypdf를 사용하여 PDF를 로드하고 파싱합니다Package
UnstructuredUnstructured의 오픈 소스 라이브러리를 사용하여 PDF를 로드합니다Package
Amazon TextractAWS API를 사용하여 PDF를 로드합니다API
MathPixMathPix를 사용하여 PDF를 로드합니다Package
PDFPlumberPDFPlumber를 사용하여 PDF 파일을 로드합니다Package
PyPDFDirectryPDF 파일이 있는 디렉토리를 로드합니다Package
PyPDFium2PyPDFium2를 사용하여 PDF 파일을 로드합니다Package
PyMuPDFPyMuPDF를 사용하여 PDF 파일을 로드합니다Package
PyMuPDF4LLMPyMuPDF4LLM을 사용하여 PDF 콘텐츠를 Markdown으로 로드합니다Package
PDFMinerPDFMiner를 사용하여 PDF 파일을 로드합니다Package
Upstage Document Parse LoaderUpstageDocumentParseLoader를 사용하여 PDF 파일을 로드합니다Package
DoclingDocling을 사용하여 PDF 파일을 로드합니다Package
UnDatasIOUnDatasIO를 사용하여 PDF 파일을 로드합니다Package
OpenDataLoader PDFOpenDataLoader PDF를 사용하여 PDF 파일을 로드합니다Package

클라우드 제공업체

다음 문서 로더를 사용하면 선호하는 클라우드 제공업체에서 문서를 로드할 수 있습니다.
문서 로더설명파트너 패키지API 레퍼런스
AWS S3 DirectoryAWS S3 디렉토리에서 문서를 로드합니다S3DirectoryLoader
AWS S3 FileAWS S3 파일에서 문서를 로드합니다S3FileLoader
Azure AI DataAzure AI 서비스에서 문서를 로드합니다AzureAIDataLoader
Azure Blob StorageAzure Blob Storage에서 문서를 로드합니다AzureBlobStorageLoader
DropboxDropbox에서 문서를 로드합니다DropboxLoader
Google Cloud Storage DirectoryGCS 버킷에서 문서를 로드합니다GCSDirectoryLoader
Google Cloud Storage FileGCS 파일 객체에서 문서를 로드합니다GCSFileLoader
Google DriveGoogle Drive에서 문서를 로드합니다(Google Docs만 해당)GoogleDriveLoader
Huawei OBS DirectoryHuawei Object Storage Service Directory에서 문서를 로드합니다OBSDirectoryLoader
Huawei OBS FileHuawei Object Storage Service File에서 문서를 로드합니다OBSFileLoader
Microsoft OneDriveMicrosoft OneDrive에서 문서를 로드합니다OneDriveLoader
Microsoft SharePointMicrosoft SharePoint에서 문서를 로드합니다SharePointLoader
Tencent COS DirectoryTencent Cloud Object Storage Directory에서 문서를 로드합니다TencentCOSDirectoryLoader
Tencent COS FileTencent Cloud Object Storage File에서 문서를 로드합니다TencentCOSFileLoader

소셜 플랫폼

다음 문서 로더를 사용하면 다양한 소셜 미디어 플랫폼에서 문서를 로드할 수 있습니다.
문서 로더API 레퍼런스
TwitterTwitterTweetLoader
RedditRedditPostsLoader

메시징 서비스

다음 문서 로더를 사용하면 다양한 메시징 플랫폼에서 데이터를 로드할 수 있습니다.
문서 로더API 레퍼런스
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook ChatFacebookChatLoader
MastodonMastodonTootsLoader

생산성 도구

다음 문서 로더를 사용하면 일반적으로 사용되는 생산성 도구에서 데이터를 로드할 수 있습니다.
문서 로더API 레퍼런스
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

일반 파일 유형

다음 문서 로더를 사용하면 일반적인 데이터 형식에서 데이터를 로드할 수 있습니다.
문서 로더데이터 유형
CSVLoaderCSV 파일
Unstructured다양한 파일 유형(https://docs.unstructured.io/platform/supported-file-types 참조)
JSONLoaderJSON 파일
BSHTMLLoaderHTML 파일
DoclingLoader다양한 파일 유형(https://ds4sd.github.io/docling/ 참조)
PolarisAIDataInsightLoader다양한 파일 유형(https://datainsight.polarisoffice.com/documentation?docType=doc_extract 참조)

모든 문서 로더

acreom

AgentQLLoader

AirbyteLoader

Airtable

Alibaba Cloud MaxCompute

Amazon Textract

Apify Dataset

ArxivLoader

AssemblyAI Audio Transcripts

AstraDB

Async Chromium

AsyncHtml

Athena

AWS S3 Directory

AWS S3 File

AZLyrics

Azure AI Data

Azure Blob Storage

Azure AI Document Intelligence

BibTeX

BiliBili

Blackboard

Blockchain

Box

Brave Search

Browserbase

Browserless

BSHTMLLoader

Cassandra

ChatGPT Data

College Confidential

Concurrent Loader

Confluence

CoNLL-U

Copy Paste

Couchbase

CSV

Cube Semantic Layer

Datadog Logs

Dedoc

Diffbot

Discord

Docling

Docugami

Docusaurus

Dropbox

Email

EPub

Etherscan

EverNote

Facebook Chat

Fauna

Figma

FireCrawl

Geopandas

Git

GitBook

GitHub

Glue Catalog

Google AlloyDB for PostgreSQL

Google BigQuery

Google Bigtable

Google Cloud SQL for SQL Server

Google Cloud SQL for MySQL

Google Cloud SQL for PostgreSQL

Google Cloud Storage Directory

Google Cloud Storage File

Google Firestore in Datastore Mode

Google Drive

Google El Carro for Oracle Workloads

Google Firestore (Native Mode)

Google Memorystore for Redis

Google Spanner

Google Speech-to-Text

Grobid

Gutenberg

Hacker News

Huawei OBS Directory

Huawei OBS File

HuggingFace Dataset

HyperbrowserLoader

iFixit

Images

Image Captions

IMSDb

Iugu

Joplin

JSONLoader

Jupyter Notebook

Kinetica

lakeFS

LangSmith

LarkSuite (FeiShu)

LLM Sherpa

Mastodon

MathPixPDFLoader

MediaWiki Dump

Merge Documents Loader

MHTML

Microsoft Excel

Microsoft OneDrive

Microsoft OneNote

Microsoft PowerPoint

Microsoft SharePoint

Microsoft Word

Near Blockchain

Modern Treasury

MongoDB

Needle Document Loader

News URL

Notion DB

Nuclia

Obsidian

OpenDataLoader PDF

Open Document Format (ODT)

Open City Data

Oracle Autonomous Database

Oracle AI Vector Search

Org-mode

Outline Document Loader

Pandas DataFrame

PDFMinerLoader

PDFPlumber

Pebblo Safe DocumentLoader

Polaris AI DataInsight

Polars DataFrame

Dell PowerScale

Psychic

PubMed

PullMdLoader

PyMuPDFLoader

PyMuPDF4LLM

PyPDFDirectoryLoader

PyPDFium2Loader

PyPDFLoader

PySpark

Quip

ReadTheDocs Documentation

Recursive URL

Reddit

Roam

Rockset

rspace

RSS Feeds

RST

scrapfly

ScrapingAnt

SingleStore

Sitemap

Slack

Snowflake

Source Code

Spider

Spreedly

Stripe

Subtitle

SurrealDB

Telegram

Tencent COS Directory

Tencent COS File

TensorFlow Datasets

TiDB

2Markdown

TOML

Trello

TSV

Twitter

UnDatasIO

Unstructured

UnstructuredMarkdownLoader

UnstructuredPDFLoader

Upstage

URL

Vsdx

Weather

WebBaseLoader

WhatsApp Chat

Wikipedia

UnstructuredXMLLoader

Xorbits Pandas DataFrame

YouTube Audio

YouTube Transcripts

YoutubeLoaderDL

Yuque

ZeroxPDFLoader


Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I