Skip to main content

4.3 평가 파이프라인 설계

목적

개방형 질문(Open-ended Question)에 대한
AI 평가 파이프라인 설계

  • 정답이 하나로 정해지지 않은 질문 평가
  • 서술형 답변 품질 평가 필요
  • 자동 평가 + 인간 평가 조합 필요

_4.3 평가 파이프라인 설계하기 4.3.1 1단계: 시스템의 모든 구성 요소 평가하기 4.3.2 2단계: 평가 가이드라인 만들기 __4.3.3 3단계: 평가 방법과 데이터 정의하기


개방형 질문(Open-ended Question)

특징

  • 정답이 명확하지 않음
  • 다양한 표현 가능
  • 평가 기준 필요

예시

  • 의견 설명
  • 요약
  • 분석
  • 전략 제안

1단계

시스템 구성요소별 평가

핵심 원칙

End-to-End 평가만 하지 않는다

→ 시스템을 구성 요소 단위로 분리 평가


구성요소 평가 예시

지원자 주소 추출 시스템

  1. PDF 추출
  2. PDF → 텍스트 변환
  3. 텍스트 → 주소 파악

평가 방식

  • 각 단계 개별 평가
  • 오류 발생 위치 빠르게 식별 가능

평가 방식 2가지

Turn-based Evaluation

각 모델 응답의 품질 평가

  • 답변 정확성
  • 논리성
  • 관련성

평가 방식 2가지

Task-based Evaluation

작업 완료 여부 평가

  • 주소 추출 성공 여부
  • 정보 검색 성공 여부
  • 작업 완료 여부

2단계

평가 가이드라인 만들기

평가 목적에 따라
평가 방법 선택


평가 방법 종류

목적방법
유해성 감지classifier
질문 관련성semantic similarity
사실 일관성AI evaluator
품질 평가human evaluator

평가 비용 최적화 전략

평가 방법 혼합 사용 100% 데이터 → 저가 classifier 1% 데이터 → 고품질 AI evaluator 효과

  • 비용 절감
  • 신뢰도 확보

평가 지표와 비즈니스 지표 연결

예시) 고객 센터 챗봇

평가지표

  • 사실 일관성 90%

비즈니스 지표

  • 고객지원 자동화 50%

유용성 임계값 설정

  • 사실 일관성 50% 이상

→ 최소한 서비스 사용 가능

임계값 설정은
제품 전략과 연결됨


3단계

평가 방법과 데이터 정의

AI 평가에서 Annotation

= 정답 라벨(Label)


Annotation의 역할

  • 평가 기준 제공
  • 모델 품질 측정
  • 파인튜닝 데이터 활용

데이터 슬라이싱

데이터를 하위 집합으로 분리 후 평가

목적

  • 편향 감소
  • 디버깅
  • 개선 영역 발견
  • Simpson's Paradox 방지

평가 데이터 규모

개선 감지에 필요한 데이터 수

개선폭필요한 데이터
30% 개선10
3% 개선1,000
1% 개선10,000

중요한 관찰

프롬프트 개선

50% → 80%

쉽다

하지만

95% → 96%

증명 매우 어려움


Simpson's Paradox

데이터 분석 오류 현상

전체 결과와 그룹 결과가 반대


Simpson's Paradox 예시

전체 합격률

성별합격률
남성60%
여성40%

결론

→ 남성이 더 많이 합격


학과별 결과

학과남성여성
A (어려움)30%35%
B (쉬움)80%85%

결론

→ 여성 합격률 더 높음


왜 이런 현상이 발생할까?

지원 패턴 차이

  • 여성 → 어려운 학과 지원
  • 남성 → 쉬운 학과 지원

결과

전체 평균이 뒤집힘


평가 파이프라인 검증

검증 질문 3가지

1️⃣ 평가지표 개선 →
비즈니스 지표 개선으로 이어지는가

2️⃣ 평가 파이프라인은 신뢰 가능한가


평가 파이프라인 검증

3️⃣ 비용 영향

평가 파이프라인 때문에
전체 시스템 비용이 얼마나 증가하는가


평가 파이프라인 핵심 요약

1️⃣ 시스템 구성요소 분리 평가
2️⃣ 평가 가이드라인 설계
3️⃣ 데이터와 annotation 정의
4️⃣ 비용 최적화
5️⃣ 비즈니스 지표 연결