- 입력 쿼리에 대해 올바른 문서가 검색되는지 확인하기 위한 검색 단계 평가.
- 검색된 문서에 대해 올바른 답변이 생성되는지 확인하기 위한 생성 단계 평가.
run/rootRun 인수를 탐색하고 처리해야 합니다. 이는 파이프라인의 중간 단계를 포함하는 Run 객체입니다.
1. LLM 파이프라인 정의
아래의 RAG 파이프라인은 1) 입력 질문으로부터 Wikipedia 쿼리 생성, 2) Wikipedia에서 관련 문서 검색, 3) 검색된 문서를 기반으로 답변 생성으로 구성됩니다.langsmith>=0.3.13이 필요합니다.
2. 파이프라인을 평가할 데이터셋 및 예제 생성
파이프라인을 평가하기 위해 몇 가지 예제가 포함된 매우 간단한 데이터셋을 구축합니다.langsmith>=0.3.13이 필요합니다.
3. 사용자 정의 평가자 정의
위에서 언급한 것처럼 두 가지 평가자를 정의합니다: 입력 쿼리에 대한 검색된 문서의 관련성을 평가하는 평가자와 검색된 문서에 대한 생성된 답변의 환각을 평가하는 평가자입니다. 환각 평가자를 정의하기 위해with_structured_output과 함께 LangChain LLM 래퍼를 사용합니다.
여기서 핵심은 평가자 함수가 파이프라인의 중간 단계에 접근하기 위해 run / rootRun 인수를 탐색해야 한다는 것입니다. 그런 다음 평가자는 원하는 기준에 따라 평가하기 위해 중간 단계의 입력과 출력을 처리할 수 있습니다.
예제에서는 편의를 위해 langchain을 사용하지만, 이는 필수가 아닙니다.
4. 파이프라인 평가
마지막으로 위에서 정의한 사용자 정의 평가자와 함께evaluate를 실행합니다.
관련 문서
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.