4.3 평가 파이프라인 설계
목적
개방형 질문(Open-ended Question)에 대한
AI 평가 파이프라인 설계
- 정답이 하나로 정해지지 않은 질문 평가
- 서술형 답변 품질 평가 필요
- 자동 평가 + 인간 평가 조합 필요
_4.3 평가 파이프라인 설계하기 4.3.1 1단계: 시스템의 모든 구성 요소 평가하기 4.3.2 2단계: 평가 가이드라인 만들기 __4.3.3 3단계: 평가 방법과 데이터 정의하기
개방형 질문(Open-ended Question)
특징
- 정답이 명확하지 않음
- 다양한 표현 가능
- 평가 기준 필요
예시
- 의견 설명
- 요약
- 분석
- 전략 제안
1단계
시스템 구성요소별 평가
핵심 원칙
End-to-End 평가만 하지 않는다
→ 시스템을 구성 요소 단위로 분리 평가
구성요소 평가 예시
지원자 주소 추출 시스템
- PDF 추출
- PDF → 텍스트 변환
- 텍스트 → 주소 파악
평가 방식
- 각 단계 개별 평가
- 오류 발생 위치 빠르게 식별 가능
평가 방식 2가지
Turn-based Evaluation
각 모델 응답의 품질 평가
예
- 답변 정확성
- 논리성
- 관련성
평가 방식 2가지
Task-based Evaluation
작업 완료 여부 평가
예
- 주소 추출 성공 여부
- 정보 검색 성공 여부
- 작업 완료 여부
2단계
평가 가이드라인 만들기
평가 목적에 따라
평가 방법 선택
평가 방법 종류
| 목적 | 방법 |
|---|---|
| 유해성 감지 | classifier |
| 질문 관련성 | semantic similarity |
| 사실 일관성 | AI evaluator |
| 품질 평가 | human evaluator |
평가 비용 최적화 전략
평가 방법 혼합 사용 100% 데이터 → 저가 classifier 1% 데이터 → 고품질 AI evaluator 효과
- 비용 절감
- 신뢰도 확보
평가 지표와 비즈니스 지표 연결
예시) 고객 센터 챗봇
평가지표
- 사실 일관성 90%
비즈니스 지표
- 고객지원 자동화 50%
유용성 임계값 설정
예
- 사실 일관성 50% 이상
→ 최소한 서비스 사용 가능
임계값 설정은
제품 전략과 연결됨
3단계
평가 방법과 데이터 정의
AI 평가에서 Annotation
= 정답 라벨(Label)
Annotation의 역할
- 평가 기준 제공
- 모델 품질 측정
- 파인튜닝 데이터 활용
데이터 슬라이싱
데이터를 하위 집합으로 분리 후 평가
목적
- 편향 감소
- 디버깅
- 개선 영역 발견
- Simpson's Paradox 방지
평가 데이터 규모
개선 감지에 필요한 데이터 수
| 개선폭 | 필요한 데이터 |
|---|---|
| 30% 개선 | 10 |
| 3% 개선 | 1,000 |
| 1% 개선 | 10,000 |
중요한 관찰
프롬프트 개선
50% → 80%
→ 쉽다
하지만
95% → 96%
→ 증명 매우 어려움
Simpson's Paradox
데이터 분석 오류 현상
전체 결과와 그룹 결과가 반대
Simpson's Paradox 예시
전체 합격률
| 성별 | 합격률 |
|---|---|
| 남성 | 60% |
| 여성 | 40% |
결론
→ 남성이 더 많이 합격
학과별 결과
| 학과 | 남성 | 여성 |
|---|---|---|
| A (어려움) | 30% | 35% |
| B (쉬움) | 80% | 85% |
결론
→ 여성 합격률 더 높음
왜 이런 현상이 발생할까?
지원 패턴 차이
- 여성 → 어려운 학과 지원
- 남성 → 쉬운 학과 지원
결과
전체 평균이 뒤집힘
평가 파이프라인 검증
검증 질문 3가지
1️⃣ 평가지표 개선 →
비즈니스 지표 개선으로 이어지는가
2️⃣ 평가 파이프라인은 신뢰 가능한가
평가 파이프라인 검증
3️⃣ 비용 영향
평가 파이프라인 때문에
전체 시스템 비용이 얼마나 증가하는가
평가 파이프라인 핵심 요약
1️⃣ 시스템 구성요소 분리 평가
2️⃣ 평가 가이드라인 설계
3️⃣ 데이터와 annotation 정의
4️⃣ 비용 최적화
5️⃣ 비즈니스 지표 연결