인터페이스
각 문서 로더는 고유한 매개변수를 정의할 수 있지만, 공통 API를 공유합니다:.load()– 모든 문서를 한 번에 로드합니다..lazy_load()– 문서를 지연 방식으로 스트리밍하며, 대용량 데이터셋에 유용합니다.
카테고리별
웹페이지
다음 문서 로더를 사용하면 웹페이지를 로드할 수 있습니다.| 문서 로더 | 설명 | 패키지/API |
|---|---|---|
| Web | urllib과 BeautifulSoup을 사용하여 HTML 웹페이지를 로드하고 파싱합니다 | Package |
| Unstructured | Unstructured를 사용하여 웹페이지를 로드하고 파싱합니다 | Package |
| RecursiveURL | 루트 URL에서 모든 하위 링크를 재귀적으로 스크래핑합니다 | Package |
| Sitemap | 주어진 사이트맵의 모든 페이지를 스크래핑합니다 | Package |
| Spider | LLM 준비 데이터를 반환하는 크롤러 및 스크래퍼입니다 | API |
| Firecrawl | 로컬로 배포할 수 있는 API 서비스입니다 | API |
| Docling | Docling을 사용하여 웹페이지를 로드하고 파싱합니다 | Package |
| Hyperbrowser | 헤드리스 브라우저를 실행하고 확장하기 위한 플랫폼으로, 모든 사이트를 스크래핑/크롤링하는 데 사용할 수 있습니다 | API |
| AgentQL | AgentQL 쿼리 또는 자연어 프롬프트를 사용하여 모든 웹페이지에서 웹 상호 작용 및 구조화된 데이터 추출을 수행합니다 | API |
| 문서 로더 | 설명 | 패키지/API |
|---|---|---|
| PyPDF | pypdf를 사용하여 PDF를 로드하고 파싱합니다 | Package |
| Unstructured | Unstructured의 오픈 소스 라이브러리를 사용하여 PDF를 로드합니다 | Package |
| Amazon Textract | AWS API를 사용하여 PDF를 로드합니다 | API |
| MathPix | MathPix를 사용하여 PDF를 로드합니다 | Package |
| PDFPlumber | PDFPlumber를 사용하여 PDF 파일을 로드합니다 | Package |
| PyPDFDirectry | PDF 파일이 있는 디렉토리를 로드합니다 | Package |
| PyPDFium2 | PyPDFium2를 사용하여 PDF 파일을 로드합니다 | Package |
| PyMuPDF | PyMuPDF를 사용하여 PDF 파일을 로드합니다 | Package |
| PyMuPDF4LLM | PyMuPDF4LLM을 사용하여 PDF 콘텐츠를 Markdown으로 로드합니다 | Package |
| PDFMiner | PDFMiner를 사용하여 PDF 파일을 로드합니다 | Package |
| Upstage Document Parse Loader | UpstageDocumentParseLoader를 사용하여 PDF 파일을 로드합니다 | Package |
| Docling | Docling을 사용하여 PDF 파일을 로드합니다 | Package |
| UnDatasIO | UnDatasIO를 사용하여 PDF 파일을 로드합니다 | Package |
| OpenDataLoader PDF | OpenDataLoader PDF를 사용하여 PDF 파일을 로드합니다 | Package |
클라우드 제공업체
다음 문서 로더를 사용하면 선호하는 클라우드 제공업체에서 문서를 로드할 수 있습니다.| 문서 로더 | 설명 | 파트너 패키지 | API 레퍼런스 |
|---|---|---|---|
| AWS S3 Directory | AWS S3 디렉토리에서 문서를 로드합니다 | ❌ | S3DirectoryLoader |
| AWS S3 File | AWS S3 파일에서 문서를 로드합니다 | ❌ | S3FileLoader |
| Azure AI Data | Azure AI 서비스에서 문서를 로드합니다 | ❌ | AzureAIDataLoader |
| Azure Blob Storage | Azure Blob Storage에서 문서를 로드합니다 | ✅ | AzureBlobStorageLoader |
| Dropbox | Dropbox에서 문서를 로드합니다 | ❌ | DropboxLoader |
| Google Cloud Storage Directory | GCS 버킷에서 문서를 로드합니다 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | GCS 파일 객체에서 문서를 로드합니다 | ✅ | GCSFileLoader |
| Google Drive | Google Drive에서 문서를 로드합니다(Google Docs만 해당) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | Huawei Object Storage Service Directory에서 문서를 로드합니다 | ❌ | OBSDirectoryLoader |
| Huawei OBS File | Huawei Object Storage Service File에서 문서를 로드합니다 | ❌ | OBSFileLoader |
| Microsoft OneDrive | Microsoft OneDrive에서 문서를 로드합니다 | ❌ | OneDriveLoader |
| Microsoft SharePoint | Microsoft SharePoint에서 문서를 로드합니다 | ❌ | SharePointLoader |
| Tencent COS Directory | Tencent Cloud Object Storage Directory에서 문서를 로드합니다 | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | Tencent Cloud Object Storage File에서 문서를 로드합니다 | ❌ | TencentCOSFileLoader |
소셜 플랫폼
다음 문서 로더를 사용하면 다양한 소셜 미디어 플랫폼에서 문서를 로드할 수 있습니다.| 문서 로더 | API 레퍼런스 |
|---|---|
TwitterTweetLoader | |
RedditPostsLoader |
메시징 서비스
다음 문서 로더를 사용하면 다양한 메시징 플랫폼에서 데이터를 로드할 수 있습니다.| 문서 로더 | API 레퍼런스 |
|---|---|
| Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
| Discord | DiscordChatLoader |
| Facebook Chat | FacebookChatLoader |
| Mastodon | MastodonTootsLoader |
생산성 도구
다음 문서 로더를 사용하면 일반적으로 사용되는 생산성 도구에서 데이터를 로드할 수 있습니다.| 문서 로더 | API 레퍼런스 |
|---|---|
| Figma | FigmaFileLoader |
| Notion | NotionDirectoryLoader |
| Slack | SlackDirectoryLoader |
| Quip | QuipLoader |
| Trello | TrelloLoader |
| Roam | RoamLoader |
| GitHub | GithubFileLoader |
일반 파일 유형
다음 문서 로더를 사용하면 일반적인 데이터 형식에서 데이터를 로드할 수 있습니다.| 문서 로더 | 데이터 유형 |
|---|---|
| CSVLoader | CSV 파일 |
| Unstructured | 다양한 파일 유형(https://docs.unstructured.io/platform/supported-file-types 참조) |
| JSONLoader | JSON 파일 |
| BSHTMLLoader | HTML 파일 |
| DoclingLoader | 다양한 파일 유형(https://ds4sd.github.io/docling/ 참조) |
| PolarisAIDataInsightLoader | 다양한 파일 유형(https://datainsight.polarisoffice.com/documentation?docType=doc_extract 참조) |
모든 문서 로더
acreom
AgentQLLoader
AirbyteLoader
Airtable
Alibaba Cloud MaxCompute
Amazon Textract
Apify Dataset
ArxivLoader
AssemblyAI Audio Transcripts
AstraDB
Async Chromium
AsyncHtml
Athena
AWS S3 Directory
AWS S3 File
AZLyrics
Azure AI Data
Azure Blob Storage
Azure AI Document Intelligence
BibTeX
BiliBili
Blackboard
Blockchain
Box
Brave Search
Browserbase
Browserless
BSHTMLLoader
Cassandra
ChatGPT Data
College Confidential
Concurrent Loader
Confluence
CoNLL-U
Copy Paste
Couchbase
CSV
Cube Semantic Layer
Datadog Logs
Dedoc
Diffbot
Discord
Docling
Docugami
Docusaurus
Dropbox
EPub
Etherscan
EverNote
Facebook Chat
Fauna
Figma
FireCrawl
Geopandas
Git
GitBook
GitHub
Glue Catalog
Google AlloyDB for PostgreSQL
Google BigQuery
Google Bigtable
Google Cloud SQL for SQL Server
Google Cloud SQL for MySQL
Google Cloud SQL for PostgreSQL
Google Cloud Storage Directory
Google Cloud Storage File
Google Firestore in Datastore Mode
Google Drive
Google El Carro for Oracle Workloads
Google Firestore (Native Mode)
Google Memorystore for Redis
Google Spanner
Google Speech-to-Text
Grobid
Gutenberg
Hacker News
Huawei OBS Directory
Huawei OBS File
HuggingFace Dataset
HyperbrowserLoader
iFixit
Images
Image Captions
IMSDb
Iugu
Joplin
JSONLoader
Jupyter Notebook
Kinetica
lakeFS
LangSmith
LarkSuite (FeiShu)
LLM Sherpa
Mastodon
MathPixPDFLoader
MediaWiki Dump
Merge Documents Loader
MHTML
Microsoft Excel
Microsoft OneDrive
Microsoft OneNote
Microsoft PowerPoint
Microsoft SharePoint
Microsoft Word
Near Blockchain
Modern Treasury
MongoDB
Needle Document Loader
News URL
Notion DB
Nuclia
Obsidian
OpenDataLoader PDF
Open Document Format (ODT)
Open City Data
Oracle Autonomous Database
Oracle AI Vector Search
Org-mode
Outline Document Loader
Pandas DataFrame
PDFMinerLoader
PDFPlumber
Pebblo Safe DocumentLoader
Polaris AI DataInsight
Polars DataFrame
Dell PowerScale
Psychic
PubMed
PullMdLoader
PyMuPDFLoader
PyMuPDF4LLM
PyPDFDirectoryLoader
PyPDFium2Loader
PyPDFLoader
PySpark
Quip
ReadTheDocs Documentation
Recursive URL
Roam
Rockset
rspace
RSS Feeds
RST
scrapfly
ScrapingAnt
SingleStore
Sitemap
Slack
Snowflake
Source Code
Spider
Spreedly
Stripe
Subtitle
SurrealDB
Telegram
Tencent COS Directory
Tencent COS File
TensorFlow Datasets
TiDB
2Markdown
TOML
Trello
TSV
UnDatasIO
Unstructured
UnstructuredMarkdownLoader
UnstructuredPDFLoader
Upstage
URL
Vsdx
Weather
WebBaseLoader
WhatsApp Chat
Wikipedia
UnstructuredXMLLoader
Xorbits Pandas DataFrame
YouTube Audio
YouTube Transcripts
YoutubeLoaderDL
Yuque
ZeroxPDFLoader
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.