["\n\n", "\n", " ", ""]입니다. 이는 문단(그 다음에는 문장, 그 다음에는 단어)을 가능한 한 함께 유지하려고 시도하는 효과를 가지며, 이러한 단위들이 일반적으로 의미상 가장 강하게 연관된 텍스트 조각으로 보이기 때문입니다.
- 텍스트 분할 방식: 문자 목록 기준
- 청크 크기 측정 방식: 문자 수 기준
.splitText를 사용하세요.
LangChain Document 객체를 생성하려면(예: 다운스트림 작업에 사용) .createDocuments를 사용하세요.
RecursiveCharacterTextSplitter에 설정된 매개변수들을 살펴보겠습니다:
chunkSize: 청크의 최대 크기이며, 크기는lengthFunction으로 결정됩니다.chunkOverlap: 청크 간 목표 중첩 범위입니다. 청크를 중첩시키면 컨텍스트가 청크 간에 분할될 때 정보 손실을 완화하는 데 도움이 됩니다.
단어 경계가 없는 언어의 텍스트 분할
일부 문자 체계는 중국어, 일본어, 태국어처럼 단어 경계가 없습니다. 기본 구분자 목록["\n\n", "\n", " ", ""]로 텍스트를 분할하면 단어가 청크 사이에서 분할될 수 있습니다. 단어를 함께 유지하려면 구분자 목록을 재정의하여 추가 구두점을 포함할 수 있습니다:
- ASCII 마침표 “
.”, 유니코드 전각 마침표 “.”(중국어 텍스트에 사용), 표意 마침표 “。”(일본어 및 중국어에 사용) 추가 - 태국어, 미얀마어, 크메르어, 일본어에 사용되는 너비 없는 공백 추가
- ASCII 쉼표 “
,”, 유니코드 전각 쉼표 “,”, 유니코드 표의 쉼표 “、” 추가
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.