LLM Sherpa를 사용하여 다양한 유형의 파일을 로드하는 방법을 다룹니다. LLM Sherpa는 DOCX, PPTX, HTML, TXT, XML을 포함한 다양한 파일 형식을 지원합니다.
LLMSherpaFileLoader는 LLMSherpa 라이브러리의 일부인 LayoutPDFReader를 사용합니다. 이 도구는 대부분의 PDF to text 파서를 사용할 때 자주 손실되는 레이아웃 정보를 보존하면서 PDF를 파싱하도록 설계되었습니다.
LayoutPDFReader의 주요 기능은 다음과 같습니다:
- 섹션과 하위 섹션을 수준과 함께 식별하고 추출할 수 있습니다.
- 라인을 결합하여 단락을 형성합니다.
- 섹션과 단락 간의 링크를 식별할 수 있습니다.
- 테이블이 발견된 섹션과 함께 테이블을 추출할 수 있습니다.
- 목록과 중첩 목록을 식별하고 추출할 수 있습니다.
- 페이지에 걸쳐 분산된 콘텐츠를 결합할 수 있습니다.
- 반복되는 헤더와 푸터를 제거할 수 있습니다.
- 워터마크를 제거할 수 있습니다.
참고: 이 라이브러리는 일부 pdf 파일에서 실패하므로 주의해서 사용하세요.
LLMSherpaFileLoader
내부적으로 LLMSherpaFileLoader는 파일 콘텐츠를 로드하기 위한 몇 가지 전략을 정의합니다: [“sections”, “chunks”, “html”, “text”].llmsherpa_api_url을 얻기 위해 nlm-ingestor를 설정하거나 기본값을 사용하세요.
sections 전략: 파일을 섹션으로 파싱하여 반환
chunks 전략: 파일을 청크로 파싱하여 반환
html 전략: 파일을 하나의 html 문서로 반환
text 전략: 파일을 하나의 텍스트 문서로 반환
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.