실험에서 평가자 자동 실행하기

LangSmith는 SDK를 통해 생성된 실험을 평가하는 두 가지 방법을 지원합니다:

프로그래밍 방식: 코드에서 평가자를 지정하는 방법 (자세한 내용은 이 가이드를 참조하세요)
데이터셋에 평가자를 바인딩하는 방법: UI에서 데이터셋에 평가자를 바인딩합니다. 이렇게 하면 SDK를 통해 설정한 평가자 외에도 새로 생성되는 모든 실험에서 평가자가 자동으로 실행됩니다. 이는 애플리케이션(대상 함수)을 반복 개발할 때 모든 실험에 대해 실행하려는 표준 평가자 세트가 있는 경우에 유용합니다.

데이터셋에 평가자 구성하기

사이드바에서 데이터셋 및 실험 탭을 클릭합니다.
평가자를 구성할 데이터셋을 선택합니다.
+ 평가자 버튼을 클릭하여 데이터셋에 평가자를 추가합니다. 그러면 평가자를 구성할 수 있는 창이 열립니다.

데이터셋에 평가자를 구성하면 평가자가 구성된 이후에 생성된 실험 실행에만 영향을 미칩니다. 평가자가 구성되기 전에 생성된 실험 실행의 평가에는 영향을 주지 않습니다.

LLM-as-a-judge 평가자

데이터셋에 평가자를 바인딩하는 프로세스는 Playground에서 LLM-as-a-judge 평가자를 구성하는 프로세스와 매우 유사합니다. Playground에서 LLM-as-a-judge 평가자 구성하기에 대한 지침을 확인하세요.

커스텀 코드 평가자

데이터셋에 코드 평가자를 바인딩하는 프로세스는 온라인 평가에서 코드 평가자를 구성하는 프로세스와 매우 유사합니다. 코드 평가자 구성하기에 대한 지침을 확인하세요. 온라인 평가에서 코드 평가자를 구성하는 것과 데이터셋에 코드 평가자를 바인딩하는 것의 유일한 차이점은 커스텀 코드 평가자가 데이터셋의 Example에 포함된 출력을 참조할 수 있다는 점입니다. 데이터셋에 바인딩된 커스텀 코드 평가자의 경우, 평가자 함수는 두 개의 인수를 받습니다:

Run (참조): 실험의 새 실행을 나타냅니다. 예를 들어, SDK를 통해 실험을 실행한 경우 테스트 중인 체인 또는 모델의 입력/출력을 포함합니다.
Example (참조): 테스트 중인 체인 또는 모델이 사용하는 데이터셋의 참조 예제를 나타냅니다. Run과 Example의 inputs는 동일해야 합니다. Example에 참조 outputs가 있는 경우 이를 사용하여 실행의 출력과 비교하여 점수를 매길 수 있습니다.

아래 코드는 출력이 참조 출력과 정확히 일치하는지 확인하는 간단한 평가자 함수의 예를 보여줍니다.

import numpy as np

def perform_eval(run, example):
    # run is a Run object
    # example is an Example object
    output = run['outputs']['output']
    ref_output = example['outputs']['outputs']
    output_match = np.array_equal(output, ref_output)

    return { "exact_match": output_match }

다음 단계

실험 탭에서 실험 결과 분석하기
비교 보기에서 실험 결과 비교하기

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

실험에서 평가자 자동 실행하기

데이터셋에 평가자 구성하기

LLM-as-a-judge 평가자

커스텀 코드 평가자

다음 단계

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​데이터셋에 평가자 구성하기

​LLM-as-a-judge 평가자

​커스텀 코드 평가자

​다음 단계

데이터셋에 평가자 구성하기

LLM-as-a-judge 평가자

커스텀 코드 평가자

다음 단계