Skip to main content

모델 성능을 평가하는 방법론

LLM Evaluation Framework

  • 정답셋 구축
  • 평가 방법론
  • DeepEval
  • 요약 평가 지표

1. 정답셋 구축하기

방법 1: Human Eval Set

  • 사람이 직접 정답셋 제작
  • 비용 많이 듦
  • 비결정적 모델에서는 한계 존재
  • AI와 인간 출력 차이 비교 가능

방법 2: AI 생성 정답셋

  • LLM으로 정답 자동 생성
  • 사람이 일부 검수
  • 대량 확장 가능

2. 정확한 평가 (Deterministic Evaluation)

특징

  • 답이 명확한 문제
  • Unit Test 기반 평가

대표 벤치마크

  • OpenAI HumanEval
  • Google MBPP

방식

  • 모델이 k개 코드 생성
  • k개 중 1개라도 Test Case 통과 → 정답 처리

3. 참조 데이터 유사도 측정

정답과 얼마나 유사한가?


3-1. 정확한 일치 (Exact Match)

  • 완전 문장 일치 시 정답
  • 단점: 표현만 달라도 오답 처리

3-2. 어휘적 유사도 (Lexical Similarity)

방법

  • Fuzzy Matching
  • N-gram 유사도

단점

  • 의미가 같아도 표현 다르면 낮은 점수
  • 단어 순서에 민감

Example: A: I love natural language processing
B: I love language natural processing


3-3. 의미적 유사도 (Semantic Similarity)

1. 토큰 기반 비교

BERTScore

  • 모든 토큰 간 cosine 비교
  • 가장 유사한 토큰끼리 매칭
  • 단어 순서 변화에 강함

Mover Score

  • 토큰 이동 거리까지 고려

2. 문장 전체 임베딩

  • 문장 → 하나의 Dense Vector
  • Cosine Similarity로 비교
  • 예: text-embedding-3-small

멀티모달 평가

CLIP

  • 텍스트 인코더
  • 이미지 인코더
  • 동일 벡터 공간에서 유사도 계산

4. DeepEval

LLM 애플리케이션 평가 오픈소스 프레임워크


DeepEval 특징

  • LLM을 pytest처럼 unit test 가능
  • Golden Set 직접 구축

Golden Set 제작 방식

초기:

  • 개발자
  • ML 엔지니어
  • 도메인 전문가
  • 기존 데이터 / 운영 로그

확장:

  • LLM 자동 생성
  • Synthesizer 기능 활용
  • 문서 → 질문/정답 자동 생성

5. LLM 요약 평가의 어려움

  • 정답이 정해져 있지 않음 (Open-ended)
  • 평가 기준이 주관적
  • 골드 요약 생성 어려움

6. F1 기반 요약 평가

F1 = Alignment Score + Coverage Score (조화 평균)


Alignment Score

  • 요약에서 Claim 추출
  • 원문 Truth와 비교
  • 사실 정합성 평가

Coverage Score

  • 원문 기반 질문 생성
  • 요약으로 답변 가능한지 평가
  • 정보 포함도 측정

7. 추가 요약 평가 지표

1. Entity Density

Entity Density = 개체 수 / 전체 토큰 수

Entity 예시:

  • 인물: Elon Musk
  • 기관: OpenAI
  • 국가: China
  • 날짜: 2024
  • 수치: 10%, 3 billion

이상적 밀도 ≈ 0.15
→ 너무 설명적이지도, 너무 빽빽하지도 않은 상태


2. Repetitiveness

  • 동일 개념 반복 감점
  • LLM-as-judge (GEval) 활용 가능

3. Vagueness

  • 불필요 문장 감점
  • 예: "이 글은 ~을 설명한다"

4. Coherence Metric

  • n번째 문장과 n+2번째 문장 cosine similarity 평균
  • 문장 순서 랜덤화 시 점수 감소

결론

LLM 평가에는

  • 정답셋 구축 전략
  • 정확한 평가 vs 유사도 기반 평가
  • 의미 기반 임베딩 비교
  • DeepEval 프레임워크 활용
  • 요약 전용 F1 + 추가 품질 지표

가 필요하다.