Skip to main content

모델 성능을 평가하는 방법론

LLM Evaluation Framework

정답셋 구축
평가 방법론
DeepEval
요약 평가 지표

1. 정답셋 구축하기

방법 1: Human Eval Set

사람이 직접 정답셋 제작
비용 많이 듦
비결정적 모델에서는 한계 존재
AI와 인간 출력 차이 비교 가능

방법 2: AI 생성 정답셋

LLM으로 정답 자동 생성
사람이 일부 검수
대량 확장 가능

2. 정확한 평가 (Deterministic Evaluation)

특징

답이 명확한 문제
Unit Test 기반 평가

대표 벤치마크

OpenAI HumanEval
Google MBPP

방식

모델이 k개 코드 생성
k개 중 1개라도 Test Case 통과 → 정답 처리

3. 참조 데이터 유사도 측정

정답과 얼마나 유사한가?

3-1. 정확한 일치 (Exact Match)

완전 문장 일치 시 정답
단점: 표현만 달라도 오답 처리

3-2. 어휘적 유사도 (Lexical Similarity)

방법

Fuzzy Matching
N-gram 유사도

단점

의미가 같아도 표현 다르면 낮은 점수
단어 순서에 민감

Example: A: I love natural language processing
B: I love language natural processing

3-3. 의미적 유사도 (Semantic Similarity)

1. 토큰 기반 비교

BERTScore

모든 토큰 간 cosine 비교
가장 유사한 토큰끼리 매칭
단어 순서 변화에 강함

Mover Score

토큰 이동 거리까지 고려

2. 문장 전체 임베딩

문장 → 하나의 Dense Vector
Cosine Similarity로 비교
예: text-embedding-3-small

멀티모달 평가

CLIP

텍스트 인코더
이미지 인코더
동일 벡터 공간에서 유사도 계산

4. DeepEval

LLM 애플리케이션 평가 오픈소스 프레임워크

DeepEval 특징

LLM을 pytest처럼 unit test 가능
Golden Set 직접 구축

Golden Set 제작 방식

초기:

개발자
ML 엔지니어
도메인 전문가
기존 데이터 / 운영 로그

확장:

LLM 자동 생성
Synthesizer 기능 활용
문서 → 질문/정답 자동 생성

5. LLM 요약 평가의 어려움

정답이 정해져 있지 않음 (Open-ended)
평가 기준이 주관적
골드 요약 생성 어려움

6. F1 기반 요약 평가

F1 = Alignment Score + Coverage Score (조화 평균)

Alignment Score

요약에서 Claim 추출
원문 Truth와 비교
사실 정합성 평가

Coverage Score

원문 기반 질문 생성
요약으로 답변 가능한지 평가
정보 포함도 측정

7. 추가 요약 평가 지표

1. Entity Density

Entity Density = 개체 수 / 전체 토큰 수

Entity 예시:

인물: Elon Musk
기관: OpenAI
국가: China
날짜: 2024
수치: 10%, 3 billion

이상적 밀도 ≈ 0.15
→ 너무 설명적이지도, 너무 빽빽하지도 않은 상태

2. Repetitiveness

동일 개념 반복 감점
LLM-as-judge (GEval) 활용 가능

3. Vagueness

불필요 문장 감점
예: "이 글은 ~을 설명한다"

4. Coherence Metric

n번째 문장과 n+2번째 문장 cosine similarity 평균
문장 순서 랜덤화 시 점수 감소

결론

LLM 평가에는

정답셋 구축 전략
정확한 평가 vs 유사도 기반 평가
의미 기반 임베딩 비교
DeepEval 프레임워크 활용
요약 전용 F1 + 추가 품질 지표

가 필요하다.