Skip to main content
평가는 LLM 애플리케이션의 성능을 정량적으로 측정하는 방법입니다. LLM은 예측할 수 없는 동작을 보일 수 있으며, 프롬프트, 모델 또는 입력에 대한 작은 변경도 결과에 상당한 영향을 미칠 수 있습니다. 평가는 실패를 식별하고, 버전을 비교하며, 더 신뢰할 수 있는 AI 애플리케이션을 구축하기 위한 체계적인 방법을 제공합니다. LangSmith에서 평가를 실행하려면 다음 세 가지 핵심 구성 요소가 필요합니다:
  • 데이터셋: 테스트 입력(및 선택적으로 예상 출력) 세트입니다.
  • 대상 함수: 테스트하려는 애플리케이션의 일부로, 단일 LLM 호출, 하나의 모듈 또는 전체 워크플로일 수 있습니다.
  • 평가자: 대상 함수의 출력을 점수화하는 함수입니다.
이 빠른 시작 가이드는 LangSmith SDK 또는 UI를 사용하여 LLM 응답의 정확성을 확인하는 기본 평가를 실행하는 과정을 안내합니다.
추적을 시작하는 것에 대한 비디오를 선호하신다면, 데이터셋 및 평가 비디오 가이드를 참조하세요.

사전 요구 사항

시작하기 전에 다음 사항을 확인하세요: 지침을 보려면 UI 또는 SDK 필터를 선택하세요:
  • UI
  • SDK

1. 워크스페이스 시크릿 설정

In the LangSmith UI, ensure that your OpenAI API key is set as a workspace secret.
  1. Navigate to Settings and then move to the Secrets tab.
  2. Select Add secret and enter the OPENAI_API_KEY and your API key as the Value.
  3. Select Save secret.
When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.

2. 프롬프트 생성

LangSmith의 프롬프트 플레이그라운드를 사용하면 다양한 프롬프트, 새로운 모델 또는 다양한 모델 구성에 대해 평가를 실행할 수 있습니다.
  1. LangSmith UI에서 Prompt Engineering 아래의 Playground로 이동합니다.
  2. Prompts 패널에서 system 프롬프트를 다음과 같이 수정합니다:
    Answer the following question accurately:
    
    Human 메시지는 그대로 둡니다: {question}.

3. 데이터셋 생성

  1. Set up Evaluation을 클릭하면 페이지 하단에 New Experiment 테이블이 열립니다.
  2. Select or create a new dataset 드롭다운에서 + New 버튼을 클릭하여 새 데이터셋을 생성합니다.
    Playground with the edited system prompt and new experiment with the dropdown for creating a new dataset.
  3. 데이터셋에 다음 예제를 추가합니다:
    InputsReference Outputs
    question: Which country is Mount Kilimanjaro located in?output: Mount Kilimanjaro is located in Tanzania.
    question: What is Earth’s lowest point?output: Earth’s lowest point is The Dead Sea.
  4. Save를 클릭하고 이름을 입력하여 새로 생성한 데이터셋을 저장합니다.

4. 평가자 추가

  1. + Evaluator를 클릭하고 Pre-built Evaluator 옵션에서 Correctness를 선택합니다.
  2. Correctness 패널에서 Save를 클릭합니다.

5. 평가 실행

  1. 오른쪽 상단의 Start를 선택하여 평가를 실행합니다. 이렇게 하면 New Experiment 테이블에 미리보기가 포함된 실험이 생성됩니다. 실험 이름을 클릭하면 전체 보기를 볼 수 있습니다.
    Full experiment view of the results that used the example dataset.

다음 단계

LangSmith에서 실험을 실행하는 방법에 대해 자세히 알아보려면 평가 개념 가이드를 읽어보세요.

비디오 가이드


Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I