하나의 평가자에서 여러 점수를 반환하는 방법

관련 항목

사용자 정의 평가자 또는 요약 평가자가 여러 메트릭을 반환하는 것이 유용한 경우가 있습니다. 예를 들어, LLM 심판이 여러 메트릭을 생성하는 경우, 여러 번의 LLM 호출을 하는 대신 여러 메트릭을 생성하는 단일 LLM 호출을 수행하여 시간과 비용을 절약할 수 있습니다. Python SDK를 사용하여 여러 점수를 반환하려면 다음 형식의 딕셔너리/객체 리스트를 반환하면 됩니다:

[
    # 'key'는 메트릭 이름입니다
    # 'score'는 수치 메트릭의 값입니다
    {"key": string, "score": number},
    # 'value'는 범주형 메트릭의 값입니다
    {"key": string, "value": string},
    ... # 원하는 만큼 로그할 수 있습니다
]

JS/TS SDK로 이를 수행하려면 ‘results’ 키가 포함된 객체와 위 형식의 리스트를 반환합니다

{results: [{ key: string, score: number }, ...]};

이러한 딕셔너리 각각에는 피드백 필드의 일부 또는 전부가 포함될 수 있습니다. 자세한 내용은 연결된 문서를 참조하세요. 예제:

Python: langsmith>=0.2.0 필요
TypeScript: 여러 점수 지원은 [email protected] 이상에서 사용 가능

def multiple_scores(outputs: dict, reference_outputs: dict) -> list[dict]:
    # 실제 평가 로직으로 교체하세요.
    precision = 0.8
    recall = 0.9
    f1 = 0.85
    return [
        {"key": "precision", "score": precision},
        {"key": "recall", "score": recall},
        {"key": "f1", "score": f1},
    ]

결과 실험의 행에는 각 점수가 표시됩니다.

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

하나의 평가자에서 여러 점수를 반환하는 방법

관련 항목

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​관련 항목

관련 항목