Skip to main content
CoNLL-U는 CoNLL-X 형식의 개정 버전입니다. 주석은 세 가지 유형의 라인으로 구성된 일반 텍스트 파일(UTF-8, NFC로 정규화, LF 문자만 줄 바꿈으로 사용, 파일 끝에 LF 문자 포함)로 인코딩됩니다:
  • 단어 라인: 단일 탭 문자로 구분된 10개 필드에 단어/토큰의 주석을 포함합니다. 아래를 참조하세요.
  • 빈 라인: 문장 경계를 표시합니다.
  • 주석 라인: 해시(#)로 시작합니다.
이것은 CoNLL-U 형식의 파일을 로드하는 방법의 예제입니다. 전체 파일은 하나의 문서로 처리됩니다. 예제 데이터(conllu.conllu)는 표준 UD/CoNLL-U 예제 중 하나를 기반으로 합니다.
from langchain_community.document_loaders import CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I