기본 예제
여기서는 정밀도와 재현율을 결합한 f1-score를 계산합니다. 이러한 종류의 메트릭은 실험의 모든 예제에 대해서만 계산할 수 있으므로, 평가자는 출력 목록과 참조 출력 목록을 입력으로 받습니다.evaluate 메서드에 전달할 수 있습니다:

요약 평가자 인수
요약 평가자 함수는 특정 인수 이름을 가져야 합니다. 다음 인수 중 일부를 사용할 수 있습니다:inputs: list[dict]: 데이터셋의 단일 예제에 해당하는 입력 목록입니다.outputs: list[dict]: 주어진 입력에 대해 각 실험이 생성한 dict 출력 목록입니다.reference_outputs/referenceOutputs: list[dict]: 사용 가능한 경우, 예제와 연결된 참조 출력 목록입니다.runs: list[Run]: 주어진 예제에 대해 두 실험이 생성한 전체 Run 객체 목록입니다. 각 실행의 중간 단계나 메타데이터에 접근해야 하는 경우 사용하세요.examples: list[Example]: 예제 입력, 출력(사용 가능한 경우), 메타데이터(사용 가능한 경우)를 포함한 모든 데이터셋 Example 객체입니다.
요약 평가자 출력
요약 평가자는 다음 타입 중 하나를 반환해야 합니다: Python 및 JS/TSdict:{"score": ..., "name": ...}형식의 dict를 사용하면 숫자 또는 불리언 점수와 메트릭 이름을 전달할 수 있습니다.
int | float | bool: 이는 평균, 정렬 등이 가능한 연속 메트릭으로 해석됩니다. 함수 이름이 메트릭의 이름으로 사용됩니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.