4.3 평가 파이프라인 설계

목적

개방형 질문(Open-ended Question)에 대한
AI 평가 파이프라인 설계

정답이 하나로 정해지지 않은 질문 평가
서술형 답변 품질 평가 필요
자동 평가 + 인간 평가 조합 필요

_4.3 평가 파이프라인 설계하기 4.3.1 1단계: 시스템의 모든 구성 요소 평가하기 4.3.2 2단계: 평가 가이드라인 만들기 __4.3.3 3단계: 평가 방법과 데이터 정의하기

개방형 질문(Open-ended Question)

특징

정답이 명확하지 않음
다양한 표현 가능
평가 기준 필요

예시

의견 설명
요약
분석
전략 제안

1단계

시스템 구성요소별 평가

핵심 원칙

End-to-End 평가만 하지 않는다

→ 시스템을 구성 요소 단위로 분리 평가

구성요소 평가 예시

지원자 주소 추출 시스템

PDF 추출
PDF → 텍스트 변환
텍스트 → 주소 파악

평가 방식

각 단계 개별 평가
오류 발생 위치 빠르게 식별 가능

평가 방식 2가지

Turn-based Evaluation

각 모델 응답의 품질 평가

예

답변 정확성
논리성
관련성

평가 방식 2가지

Task-based Evaluation

작업 완료 여부 평가

예

주소 추출 성공 여부
정보 검색 성공 여부
작업 완료 여부

2단계

평가 가이드라인 만들기

평가 목적에 따라
평가 방법 선택

평가 방법 종류

목적	방법
유해성 감지	classifier
질문 관련성	semantic similarity
사실 일관성	AI evaluator
품질 평가	human evaluator

평가 비용 최적화 전략

평가 방법 혼합 사용 100% 데이터 → 저가 classifier 1% 데이터 → 고품질 AI evaluator 효과

비용 절감
신뢰도 확보

평가 지표와 비즈니스 지표 연결

예시) 고객 센터 챗봇

평가지표

사실 일관성 90%

비즈니스 지표

고객지원 자동화 50%

유용성 임계값 설정

예

사실 일관성 50% 이상

→ 최소한 서비스 사용 가능

임계값 설정은
제품 전략과 연결됨

3단계

평가 방법과 데이터 정의

AI 평가에서 Annotation

= 정답 라벨(Label)

Annotation의 역할

평가 기준 제공
모델 품질 측정
파인튜닝 데이터 활용

데이터 슬라이싱

데이터를 하위 집합으로 분리 후 평가

목적

편향 감소
디버깅
개선 영역 발견
Simpson's Paradox 방지

평가 데이터 규모

개선 감지에 필요한 데이터 수

개선폭	필요한 데이터
30% 개선	10
3% 개선	1,000
1% 개선	10,000

중요한 관찰

프롬프트 개선

50% → 80%

→ 쉽다

하지만

95% → 96%

→ 증명 매우 어려움

Simpson's Paradox

데이터 분석 오류 현상

전체 결과와 그룹 결과가 반대

Simpson's Paradox 예시

전체 합격률

성별	합격률
남성	60%
여성	40%

결론

→ 남성이 더 많이 합격

학과별 결과

학과	남성	여성
A (어려움)	30%	35%
B (쉬움)	80%	85%

결론

→ 여성 합격률 더 높음

왜 이런 현상이 발생할까?

지원 패턴 차이

여성 → 어려운 학과 지원
남성 → 쉬운 학과 지원

결과

전체 평균이 뒤집힘

평가 파이프라인 검증

검증 질문 3가지

1️⃣ 평가지표 개선 →
비즈니스 지표 개선으로 이어지는가

2️⃣ 평가 파이프라인은 신뢰 가능한가

평가 파이프라인 검증

3️⃣ 비용 영향

평가 파이프라인 때문에
전체 시스템 비용이 얼마나 증가하는가

평가 파이프라인 핵심 요약

1️⃣ 시스템 구성요소 분리 평가
2️⃣ 평가 가이드라인 설계
3️⃣ 데이터와 annotation 정의
4️⃣ 비용 최적화
5️⃣ 비즈니스 지표 연결

4.3 평가 파이프라인 설계

목적​

개방형 질문(Open-ended Question)

특징​

1단계

시스템 구성요소별 평가​

핵심 원칙​

구성요소 평가 예시

평가 방식 2가지

Turn-based Evaluation​

평가 방식 2가지

Task-based Evaluation​

2단계

평가 가이드라인 만들기​

평가 방법 종류

평가 비용 최적화 전략

평가 지표와 비즈니스 지표 연결

유용성 임계값 설정

3단계

평가 방법과 데이터 정의​

Annotation의 역할

데이터 슬라이싱

평가 데이터 규모

중요한 관찰

Simpson's Paradox

Simpson's Paradox 예시

학과별 결과

왜 이런 현상이 발생할까?

평가 파이프라인 검증

평가 파이프라인 검증

평가 파이프라인 핵심 요약

목적

특징

시스템 구성요소별 평가

핵심 원칙

Turn-based Evaluation

Task-based Evaluation

평가 가이드라인 만들기

평가 방법과 데이터 정의