반복 실행으로 평가하는 방법

실험에서 반복 실행 구성하기
반복 실행으로 실행한 실험의 결과 보기

LLM 출력은 결정적이지 않기 때문에 여러 번 반복 실행하면 시스템 성능에 대한 더 정확한 추정치를 얻을 수 있습니다. 출력은 반복 실행마다 달라질 수 있습니다. 반복 실행은 에이전트와 같이 높은 변동성을 보이는 시스템에서 노이즈를 줄이는 방법입니다.

실험에서 반복 실행 구성하기

evaluate / aevaluate 함수(Python, TypeScript)에 선택적 매개변수인 num_repetitions를 추가하여 데이터셋의 각 예제를 몇 번 평가할지 지정할 수 있습니다. 예를 들어, 데이터셋에 5개의 예제가 있고 num_repetitions=5로 설정하면 각 예제가 5번 실행되어 총 25번의 실행이 이루어집니다.

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)

반복 실행으로 실행한 실험의 결과 보기

반복 실행으로 실험을 실행한 경우, 출력 결과 열에 화살표가 표시되어 테이블에서 출력을 볼 수 있습니다. 반복 실행의 각 실행 결과를 보려면 출력 셀 위에 마우스를 올리고 확장 보기를 클릭하세요. 반복 실행으로 실험을 실행하면 LangSmith는 테이블에 각 피드백 점수의 평균을 표시합니다. 피드백 점수를 클릭하면 개별 실행의 피드백 점수를 보거나 반복 실행 간의 표준 편차를 확인할 수 있습니다.

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

실험에서 평가자 자동 실행하기

모델 속도 제한 처리 방법

⌘I

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

반복 실행으로 평가하는 방법

실험에서 반복 실행 구성하기

반복 실행으로 실행한 실험의 결과 보기

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​실험에서 반복 실행 구성하기

​반복 실행으로 실행한 실험의 결과 보기

실험에서 반복 실행 구성하기

반복 실행으로 실행한 실험의 결과 보기