Skip to main content
사용자 정의 평가자 또는 요약 평가자가 여러 메트릭을 반환하는 것이 유용한 경우가 있습니다. 예를 들어, LLM 심판이 여러 메트릭을 생성하는 경우, 여러 번의 LLM 호출을 하는 대신 여러 메트릭을 생성하는 단일 LLM 호출을 수행하여 시간과 비용을 절약할 수 있습니다. Python SDK를 사용하여 여러 점수를 반환하려면 다음 형식의 딕셔너리/객체 리스트를 반환하면 됩니다:
[
    # 'key'는 메트릭 이름입니다
    # 'score'는 수치 메트릭의 값입니다
    {"key": string, "score": number},
    # 'value'는 범주형 메트릭의 값입니다
    {"key": string, "value": string},
    ... # 원하는 만큼 로그할 수 있습니다
]
JS/TS SDK로 이를 수행하려면 ‘results’ 키가 포함된 객체와 위 형식의 리스트를 반환합니다
{results: [{ key: string, score: number }, ...]};
이러한 딕셔너리 각각에는 피드백 필드의 일부 또는 전부가 포함될 수 있습니다. 자세한 내용은 연결된 문서를 참조하세요. 예제:
  • Python: langsmith>=0.2.0 필요
  • TypeScript: 여러 점수 지원은 [email protected] 이상에서 사용 가능
def multiple_scores(outputs: dict, reference_outputs: dict) -> list[dict]:
    # 실제 평가 로직으로 교체하세요.
    precision = 0.8
    recall = 0.9
    f1 = 0.85
    return [
        {"key": "precision", "score": precision},
        {"key": "recall", "score": recall},
        {"key": "f1", "score": f1},
    ]
결과 실험의 행에는 각 점수가 표시됩니다. multiple_scores.png

관련 항목


Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I