평가 빠른 시작

평가는 LLM 애플리케이션의 성능을 정량적으로 측정하는 방법입니다. LLM은 예측할 수 없는 동작을 보일 수 있으며, 프롬프트, 모델 또는 입력에 대한 작은 변경도 결과에 상당한 영향을 미칠 수 있습니다. 평가는 실패를 식별하고, 버전을 비교하며, 더 신뢰할 수 있는 AI 애플리케이션을 구축하기 위한 체계적인 방법을 제공합니다. LangSmith에서 평가를 실행하려면 다음 세 가지 핵심 구성 요소가 필요합니다:

데이터셋: 테스트 입력(및 선택적으로 예상 출력) 세트입니다.
대상 함수: 테스트하려는 애플리케이션의 일부로, 단일 LLM 호출, 하나의 모듈 또는 전체 워크플로일 수 있습니다.
평가자: 대상 함수의 출력을 점수화하는 함수입니다.

이 빠른 시작 가이드는 LangSmith SDK 또는 UI를 사용하여 LLM 응답의 정확성을 확인하는 기본 평가를 실행하는 과정을 안내합니다.

추적을 시작하는 것에 대한 비디오를 선호하신다면, 데이터셋 및 평가 비디오 가이드를 참조하세요.

사전 요구 사항

시작하기 전에 다음 사항을 확인하세요:

LangSmith 계정: smith.langchain.com에서 가입하거나 로그인하세요.
LangSmith API 키: API 키 생성 가이드를 따르세요.
OpenAI API 키: OpenAI 대시보드에서 생성하세요.

지침을 보려면 UI 또는 SDK 필터를 선택하세요:

1. 워크스페이스 시크릿 설정

In the LangSmith UI, ensure that your OpenAI API key is set as a workspace secret.

Navigate to Settings and then move to the Secrets tab.
Select Add secret and enter the OPENAI_API_KEY and your API key as the Value.
Select Save secret.

When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.

2. 프롬프트 생성

LangSmith의 프롬프트 플레이그라운드를 사용하면 다양한 프롬프트, 새로운 모델 또는 다양한 모델 구성에 대해 평가를 실행할 수 있습니다.

LangSmith UI에서 Prompt Engineering 아래의 Playground로 이동합니다.
Prompts 패널에서 system 프롬프트를 다음과 같이 수정합니다:
```
Answer the following question accurately:
```
Human 메시지는 그대로 둡니다: {question}.

3. 데이터셋 생성

Set up Evaluation을 클릭하면 페이지 하단에 New Experiment 테이블이 열립니다.
Select or create a new dataset 드롭다운에서 + New 버튼을 클릭하여 새 데이터셋을 생성합니다.

데이터셋에 다음 예제를 추가합니다:

Inputs	Reference Outputs
question: Which country is Mount Kilimanjaro located in?	output: Mount Kilimanjaro is located in Tanzania.
question: What is Earth’s lowest point?	output: Earth’s lowest point is The Dead Sea.

Save를 클릭하고 이름을 입력하여 새로 생성한 데이터셋을 저장합니다.

4. 평가자 추가

+ Evaluator를 클릭하고 Pre-built Evaluator 옵션에서 Correctness를 선택합니다.
Correctness 패널에서 Save를 클릭합니다.

5. 평가 실행

오른쪽 상단의 Start를 선택하여 평가를 실행합니다. 이렇게 하면 New Experiment 테이블에 미리보기가 포함된 실험이 생성됩니다. 실험 이름을 클릭하면 전체 보기를 볼 수 있습니다.

다음 단계

LangSmith에서 실험을 실행하는 방법에 대해 자세히 알아보려면 평가 개념 가이드를 읽어보세요.

평가에 대한 자세한 내용은 평가 문서를 참조하세요.
UI에서 데이터셋 생성 및 관리하는 방법을 알아보세요.
프롬프트 플레이그라운드에서 평가 실행하는 방법을 알아보세요.

이 가이드는 오픈 소스 openevals 패키지의 사전 구축된 LLM-as-judge 평가자를 사용합니다. OpenEvals는 일반적으로 사용되는 평가자 세트를 포함하며, 평가를 처음 시작하는 경우 훌륭한 출발점입니다. 앱 평가 방법에 더 많은 유연성을 원한다면 완전히 사용자 정의 평가자를 정의할 수도 있습니다.

1. 의존성 설치

터미널에서 프로젝트용 디렉토리를 생성하고 환경에 의존성을 설치합니다:

mkdir ls-evaluation-quickstart && cd ls-evaluation-quickstart
python -m venv .venv && source .venv/bin/activate
python -m pip install --upgrade pip
pip install -U langsmith openevals openai

패키지 관리자로 yarn을 사용하는 경우, openevals의 피어 의존성으로 @langchain/core도 수동으로 설치해야 합니다. 이는 일반적인 LangSmith 평가에는 필요하지 않으며, 임의의 사용자 정의 코드를 사용하여 평가자를 정의할 수 있습니다.

2. 환경 변수 설정

다음 환경 변수를 설정합니다:

LANGSMITH_TRACING
LANGSMITH_API_KEY
OPENAI_API_KEY (또는 LLM 제공자의 API 키)
(선택 사항) LANGSMITH_WORKSPACE_ID: LangSmith API가 여러 워크스페이스에 연결되어 있는 경우 사용할 워크스페이스를 지정하려면 이 변수를 설정하세요.

export LANGSMITH_TRACING=true
export LANGSMITH_API_KEY="<your-langsmith-api-key>"
export OPENAI_API_KEY="<your-openai-api-key>"
export LANGSMITH_WORKSPACE_ID="<your-workspace-id>"

Anthropic을 사용하는 경우 Anthropic 래퍼를 사용하여 호출을 추적하세요. 다른 제공자의 경우 traceable 래퍼를 사용하세요.

3. 데이터셋 생성

파일을 생성하고 다음 코드를 추가합니다. 이 코드는:

LangSmith에 연결하기 위해 Client를 가져옵니다.
데이터셋을 생성합니다.
예제 입력 및 출력을 정의합니다.
평가에 사용할 수 있도록 입력 및 출력 쌍을 LangSmith의 데이터셋과 연결합니다.

# dataset.py
from langsmith import Client

def main():
    client = Client()

    # Programmatically create a dataset in LangSmith
    dataset = client.create_dataset(
        dataset_name="Sample dataset",
        description="A sample dataset in LangSmith."
    )

    # Create examples
    examples = [
        {
            "inputs": {"question": "Which country is Mount Kilimanjaro located in?"},
            "outputs": {"answer": "Mount Kilimanjaro is located in Tanzania."},
        },
        {
            "inputs": {"question": "What is Earth's lowest point?"},
            "outputs": {"answer": "Earth's lowest point is The Dead Sea."},
        },
    ]

    # Add examples to the dataset
    client.create_examples(dataset_id=dataset.id, examples=examples)
    print("Created dataset:", dataset.name)

if __name__ == "__main__":
    main()

터미널에서 dataset 파일을 실행하여 앱 평가에 사용할 데이터셋을 생성합니다:
python dataset.py
다음 출력이 표시됩니다:
```
Created dataset: Sample dataset
```

4. 대상 함수 생성

평가하려는 내용이 포함된 대상 함수를 정의합니다. 이 가이드에서는 질문에 답변하기 위한 단일 LLM 호출이 포함된 대상 함수를 정의합니다.eval 파일에 다음을 추가합니다:

# eval.py
from langsmith import Client, wrappers
from openai import OpenAI

# Wrap the OpenAI client for LangSmith tracing
openai_client = wrappers.wrap_openai(OpenAI())

# Define the application logic you want to evaluate inside a target function
# The SDK will automatically send the inputs from the dataset to your target function
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "Answer the following question accurately"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

5. 평가자 정의

이 단계에서는 앱이 생성하는 답변을 평가하는 방법을 LangSmith에 알려줍니다.openevals에서 사전 구축된 평가 프롬프트(CORRECTNESS_PROMPT)와 이를 LLM-as-judge 평가자로 래핑하는 헬퍼를 가져옵니다. 이는 애플리케이션의 출력을 점수화합니다.

CORRECTNESS_PROMPT는 "inputs", "outputs", "reference_outputs"에 대한 변수가 있는 f-string입니다. OpenEvals 프롬프트 사용자 정의에 대한 자세한 내용은 여기를 참조하세요.

평가자는 다음을 비교합니다:

inputs: 대상 함수에 전달된 내용(예: 질문 텍스트).
outputs: 대상 함수가 반환한 내용(예: 모델의 답변).
reference_outputs: 3단계에서 각 데이터셋 예제에 첨부한 정답입니다.

eval 파일에 다음 강조 표시된 코드를 추가합니다:

from langsmith import Client, wrappers
from openai import OpenAI
from openevals.llm import create_llm_as_judge
from openevals.prompts import CORRECTNESS_PROMPT

# Wrap the OpenAI client for LangSmith tracing
openai_client = wrappers.wrap_openai(OpenAI())

# Define the application logic you want to evaluate inside a target function
# The SDK will automatically send the inputs from the dataset to your target function
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "Answer the following question accurately"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

def correctness_evaluator(inputs: dict, outputs: dict, reference_outputs: dict):
    evaluator = create_llm_as_judge(
        prompt=CORRECTNESS_PROMPT,
        model="openai:o3-mini",
        feedback_key="correctness",
    )
    return evaluator(
        inputs=inputs,
        outputs=outputs,
        reference_outputs=reference_outputs
    )

6. 실행 및 결과 보기

평가 실험을 실행하려면 evaluate(...)를 호출합니다. 이 함수는:

3단계에서 생성한 데이터셋에서 예제를 가져옵니다.
각 예제의 입력을 4단계의 대상 함수로 보냅니다.
출력(모델의 답변)을 수집합니다.
5단계의 평가자에게 reference_outputs와 함께 출력을 전달합니다.
UI에서 볼 수 있도록 모든 결과를 실험으로 LangSmith에 기록합니다.

eval 파일에 강조 표시된 코드를 추가합니다:

from langsmith import Client, wrappers
from openai import OpenAI
from openevals.llm import create_llm_as_judge
from openevals.prompts import CORRECTNESS_PROMPT

# Wrap the OpenAI client for LangSmith tracing
openai_client = wrappers.wrap_openai(OpenAI())

# Define the application logic you want to evaluate inside a target function
# The SDK will automatically send the inputs from the dataset to your target function
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "Answer the following question accurately"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

def correctness_evaluator(inputs: dict, outputs: dict, reference_outputs: dict):
    evaluator = create_llm_as_judge(
        prompt=CORRECTNESS_PROMPT,
        model="openai:o3-mini",
        feedback_key="correctness",
    )
    return evaluator(
        inputs=inputs,
        outputs=outputs,
        reference_outputs=reference_outputs
    )

# After running the evaluation, a link will be provided to view the results in langsmith
def main():
    client = Client()
    experiment_results = client.evaluate(
        target,
        data="Sample dataset",
        evaluators=[
            correctness_evaluator,
            # can add multiple evaluators here
        ],
        experiment_prefix="first-eval-in-langsmith",
        max_concurrency=2,
    )
    print(experiment_results)

if __name__ == "__main__":
    main()

평가자를 실행합니다:
python eval.py

평가 결과를 보기 위한 링크와 실험 결과에 대한 메타데이터를 받게 됩니다:

View the evaluation results for experiment: 'first-eval-in-langsmith-00000000' at: https://smith.langchain.com/o/6551f9c4-2685-4a08-86b9-1b29643deb3d/datasets/e5fde557-c274-4e49-b39d-000000000000/compare?selectedSessions=70b11778-6a28-4cdb-be81-000000000000

<ExperimentResults first-eval-in-langsmith-00000000>

평가 실행 출력의 링크를 따라 LangSmith UI의 Datasets & Experiments 페이지로 이동하여 실험 결과를 탐색합니다. 이렇게 하면 Inputs, Reference Output, Outputs를 보여주는 테이블이 있는 생성된 실험으로 이동합니다. 데이터셋을 선택하면 결과의 확장 보기를 열 수 있습니다.

다음 단계

다음으로 탐색할 수 있는 주제는 다음과 같습니다:

평가 개념은 LangSmith의 평가에 대한 주요 용어 설명을 제공합니다.
OpenEvals README에서 사용 가능한 모든 사전 구축 평가자와 사용자 정의 방법을 확인하세요.
사용자 정의 평가자 정의하기.
모든 클래스와 함수에 대한 포괄적인 설명은 Python 또는 TypeScript SDK 참조를 확인하세요.

비디오 가이드

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

사전 요구 사항

1. 워크스페이스 시크릿 설정

2. 프롬프트 생성

3. 데이터셋 생성

4. 평가자 추가

5. 평가 실행

다음 단계

1. 의존성 설치

2. 환경 변수 설정

3. 데이터셋 생성

4. 대상 함수 생성

5. 평가자 정의

6. 실행 및 결과 보기

다음 단계

비디오 가이드

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​사전 요구 사항

​1. 워크스페이스 시크릿 설정

​2. 프롬프트 생성

​3. 데이터셋 생성

​4. 평가자 추가

​5. 평가 실행

​다음 단계

​1. 의존성 설치

​2. 환경 변수 설정

​3. 데이터셋 생성

​4. 대상 함수 생성

​5. 평가자 정의

​6. 실행 및 결과 보기

​다음 단계

​비디오 가이드

사전 요구 사항

1. 워크스페이스 시크릿 설정

2. 프롬프트 생성

3. 데이터셋 생성

4. 평가자 추가

5. 평가 실행

다음 단계

1. 의존성 설치

2. 환경 변수 설정

3. 데이터셋 생성

4. 대상 함수 생성

5. 평가자 정의

6. 실행 및 결과 보기

다음 단계

비디오 가이드