Skip to main content

1.RAG Basic - 1

🎯 목적: 프로덕션급 RAG 앱 개발 역량 확보

프롬프트 캐싱, 쿼리 확장, 결과 재랭킹, 인덱스 최적화, 동의어 확장 등 엔터프라이즈 기능 적용 목표

📚 RAG 핵심

정의: LLM(대형 언어 모델) + 외부 데이터 소스를 결합해 정확한 답변 생성
LLM 단독 한계: 외부 정보 접근 불가 → 환각·구식 정보
RAG 적용 효과: 최신·정확·맥락 기반 답변 가능

⚙ 작동 원리

 문서를 작은 조각(chunk)으로 분리
 벡터DB에 저장해 검색 용이
 LLM이 질문을 받으면 연관 정보 검색 → 답변 생성

🔑 핵심 개념 3가지

External Knowledge Integration – 외부 지식 연결
Dynamic Information – 새로운 데이터 자동 반영
Contextual Response Generation – 맥락 기반 응답으로 환각 감소

📌 예시

Perplexity: 웹 검색 결과 → 답변 생성
클라우드 기반 프로젝트: 업로드 문서 기반 Q&A 지원

🏛 2가지 핵심 원칙

1️⃣ LLM 출력을 사실 정보에 기반(Grounding)

LLM 단독: 자신 없는 내용도 확신 있게 잘못된 답변 가능
RAG: 외부 데이터로 근거 제공해 사실 기반 답변 생성
Black box 문제 해결 → 어떤 문서를 참조했는지 추적 가능

2️⃣ 모델 재학습 없이 지식 확장

기존: 새로운 정보 반영 위해 고비용 Fine-tuning 필요
RAG: 필요 시 외부 데이터 검색 후 즉시 최신 답변 가능
DB 수정만으로 정보 삭제·업데이트 즉시 반영

🛠 RAG 주요 활용 사례

콘텐츠 생성 고도화: 뉴스·블로그에 사실 기반 정보 제공
고객 피드백 분석: DB에 저장된 피드백 기반 Q&A 봇 운영
시장 정보 & 리서치: 대량 문서에서 필요한 정보 검색 후 리포트 생성
맞춤형 추천: 사용자 데이터 기반 개인화 추천 (e커머스·금융)
대화형 시스템·챗봇: 문서·매뉴얼 기반 질의응답

🏗 RAG 아키텍처 핵심 요약

기본 워크플로우

 사용자 질문 → LLM
 LLM → LangChain 같은 프레임워크로 요청 관리
 LangChain → 벡터DB 시맨틱 검색
 검색 결과 + 질문 → LLM 전달해 맥락 기반 답변 생성
 LLM → 프레임워크 → 사용자에게 응답 제공

엔터프라이즈 확장 기능

인증(Authentication)
쿼리 확장(Query Expansion): 유사어 확대해 검색 정확도 향상
프롬프트 캐싱(Prompt Caching): 반복 질문 처리 비용 절감
DB 직접 연결해 실시간 데이터 응답 가능

📘 LLM 핵심 요약

LLM은 인간 언어를 이해·생성하는 모델 (텍스트 생성, 이해, 번역 가능)
입력 → 기계 언어 변환 → 신경망 처리 → 예측 출력
GPT 진화: GPT → GPT-2 → GPT-3 → GPT-3.5 Turbo → GPT-4 → GPT-4 Mini
GPT-4 이후 윤리·안전성 논란, Claude·Gemini 등 경쟁 모델 부상

📋 주요 LLM 모델

Claude (Anthropic): GPT 경쟁 모델, 프롬프트 캐싱 제공
Gemini 1.5 (Google): 100만 토큰 컨텍스트, 멀티모달 지원
LLaMA 3.1 (Meta): 오픈소스, 로컬 실행 가능
GEMA (Google): 모바일용 경량 모델
클로즈드소스: API 기반, 구조 비공개, 대부분 유료

🔍 오픈소스 vs 클로즈드소스

접근성: 오픈소스(설치 어려움) / 클로즈드소스(API 호출로 간단)
비용: 오픈소스(무료) / 클로즈드소스(유료)
지원: 커뮤니티 vs 공식 지원
커스터마이징: 코드 수정 가능 vs 제한적(API 기반)
유지관리: 오픈소스는 직접 업데이트 필요 / 클로즈드소스는 모델명 교체만

📈 RAG 핵심 포인트

사실 일관성 향상, 도메인 지식 강화, 환각(hallucination) 감소
환각 줄이는 방법: 맥락 검증, 동적 질의, 정보 검색, 사후 검증
RAG 외 LLM 개선 방법: 파인튜닝, 프롬프트 엔지니어링, 도메인 전용 검색
활용 분야: 의료, 금융, 법률, 고객지원 등