4. Models
Gemma 4 12B-MLX + Mac Studio 로컬 LLM 정리
모델의 파라미터
12B는 120억 파라미터급 표시
파라미터는 모델의 학습된 가중치
- 파라미터는 AI가 학습 과정에서 저장한 가중치 값입니다.
- 쉽게 말해 모델 안에는 다음과 같은 능력이 숫자로 압축
- 언어 감각, 코드 패턴, 추론 방식, 지식 압축, 문맥 판단력
모델이 클수록 성능 여지는 커지지만 비용도 커집니다
- 대체로
4B < 12B < 31B순으로 처리 능력이 높아지는 경향 - 다만 파라미터가 늘면 다음 비용도 커집니다.
- 메모리 사용량, 추론 속도, 발열 증가
mlx는 Apple Silicon 최적화 포맷
gemma4:12b-mlx의mlx는 Mac의 Apple Silicon에서 동작 효율을 높이기 위한 최적화 버전.
architecture: gemma4_unified
이 모델은 gemma4_unified 구조를 사용
- 텍스트, 이미지, 오디오를 단일 처리 흐름 안에서 통합하려는 방향의 멀티모달 구조입니다.
“인코더 없는 멀티모달”의 의미 정리
- 기존 멀티모달은 입력별로 전용 인코더를 거쳐 LLM에 연결하는 형태가 일반적이었습니다.
이미지 → 비전 인코더 → LLM → 답변
오디오 → 오디오 인코더 → LLM → 답변
텍스트 → LLM → 답변
Gemma 4는 입력을 통합 처리 지점으로 묶는 형태를 지향합니다.
이미지 / 오디오 / 텍스트 → LLM 본체 기반 통합 처리 → 답변
“인코더 없음”은 전처리 없음이 아닙니다
- 중요한 오해 포인트입니다. 이미지를 그대로 LLM에 넣는 것은 아닙니다.
- 이미지는 LLM이 다룰 수 있도록 경량 임베딩/투영 단계가 필요합니다.
- 다만 기존처럼 거대하고 독립적인 전용 비전 인코더를 두는 방식 대신
전용 인코더를 줄이면 효율은 좋아지지만, 정밀 멀티모달 작업에서는 한계가 있을 수 있습니다.
- OCR
- 세밀한 이미지 판독
- 오디오 전사 정확도
특히 정밀 분석이 핵심이라면 코드/문서 요약처럼 안정적 성격의 태스크뿐 아니라
이미지·오디오 태스크는 별도 벤치마크로 성능을 확인하는 게 좋습니다.
컨텍스트 길이
context length: 131072
- 최대 컨텍스트는
131,072 tokens로, 대략 128K 토큰 규모입니다. - 128K를 지원한다고 해서 자동으로 속도와 정확도가 최적화되는 건 아닙니다.
- 컨텍스트가 길어질수록 비용이 늘어납니다.
- 프롬프트 처리 시간 증가, 메모리 사용량 증가, 응답 지연 증가, 장거리 문맥 참조 품질 저하 가능성
임베딩 차원
embedding length: 3840
- 임베딩 차원이
3840이라는 것은 토큰 하나를 3840차원 벡터로 표현한다는 뜻입니다. 예시:
"function" → 길이 3840의 실수 벡터
- 임베딩 차원이 클수록 표현력은 좋아질 수 있지만, 계산 비용도 함께 증가합니다.
양자화
quantization: nvfp4
nvfp4는 4비트 계열 양자화 방식입니다.- 양자화는 모델 파라미터를 압축해 메모리 사용량을 낮추는 방법으로,
- 13B급 모델을 로컬에서 돌릴 수 있게 해주는 핵심 요소 중 하나입니다.
양자화의 장단점
장점
- 메모리 절감 - 로컬 실행 가능성 확대 > 일부 상황에서 속도 개선
단점
- 품질 저하 가능성 > 수학/코딩 같은 정밀 추론 정확도 하락 가능
- 멀티모달 인식 품질 저하 가능
thinking 모델
thinking 기능
- 더 긴 추론 과정을 만들 수 있는 모드입니다.
- 복잡한 문제에서 품질이 좋아질 수 있지만, 그만큼 출력이 길어져 응답 지연이 커질 수 있습니다.
24시간 가동 시 전기요금 체감
단순 가정으로 100W를 24시간 가동했을 때:
하루: 100W × 24시간 = 2.4kWh
월: 2.4kWh × 30일 = 72kWh
연간: 72kWh × 12개월 = 864kWh
- 누진제 적용 여부에 따라 다르지만, 월 1만~2만원대 정도를 대략적인 기준으로 잡을 수 있습니다.
- Mac Studio M2 Max의 사용 전력을 대략치로 정리하면 아래와 같습니다.
| 사용 상황 | 전력 |
|---|---|
| 웹 서핑 | 20~40W |
| 일반 개발 | 30~80W |
| Ollama 추론 | 80~150W |
| CPU+GPU 풀로드 | 120~250W |
따라서 24시간 평균 100W는 보수적인(높은) 가정입니다.
66.7W 가정 시 월/연 사용량
0.0667kW × 24시간 = 1.6kWh/일
1.6kWh × 30일 = 48kWh/월
48kWh × 12개월 = 576kWh/년
- 이 경우 전기요금 기여분은 보통 월 5천~1만5천원 구간으로 추정
임베딩 모델 3종 비교
| 모델 | 크기 | 특징 | 장점 | 단점 |
|---|---|---|---|---|
nomic-embed-text-v2-moe | 비공개(MoE) | 다국어 최적화 | 한국어 포함 다국어 검색 강함 | 생성 AI 생태계 지원 적음 |
| Qwen3 Embedding | 0.6B / 4B / 8B | 최신 범용 임베딩 | 성능 최고급, 긴 컨텍스트 | 무거움 |
| EmbeddingGemma | 300M | 경량 임베딩 | 빠름, 저전력 | 성능은 상위 모델보다 낮음 |
성능 순위 (2026 기준)
검색(RAG) 품질 기준:
- Qwen3-Embedding 8B
- Qwen3-Embedding 4B
- Nomic v2 MoE
- EmbeddingGemma
- Qwen3-Embedding 0.6B
현재 Ollama 생태계에서 많이 쓰는 조합
Embedding
└─ qwen3-embedding (Qwen3 Embedding | 0.6B 만 해도 크다.)
Retriever
└─ Qdrant
Generator
└─ Gemma4 / Qwen3 / DeepSeek
Framework
└─ LangGraph