4. Models

Gemma 4 12B-MLX + Mac Studio 로컬 LLM 정리

모델의 파라미터

12B는 120억 파라미터급 표시

파라미터는 모델의 학습된 가중치

파라미터는 AI가 학습 과정에서 저장한 가중치 값입니다.
쉽게 말해 모델 안에는 다음과 같은 능력이 숫자로 압축
- 언어 감각, 코드 패턴, 추론 방식, 지식 압축, 문맥 판단력

모델이 클수록 성능 여지는 커지지만 비용도 커집니다

대체로 4B < 12B < 31B 순으로 처리 능력이 높아지는 경향
다만 파라미터가 늘면 다음 비용도 커집니다.
- 메모리 사용량, 추론 속도, 발열 증가

mlx는 Apple Silicon 최적화 포맷

gemma4:12b-mlx의 mlx는 Mac의 Apple Silicon에서 동작 효율을 높이기 위한 최적화 버전.

`architecture: gemma4_unified`

이 모델은 gemma4_unified 구조를 사용

텍스트, 이미지, 오디오를 단일 처리 흐름 안에서 통합하려는 방향의 멀티모달 구조입니다.

“인코더 없는 멀티모달”의 의미 정리

기존 멀티모달은 입력별로 전용 인코더를 거쳐 LLM에 연결하는 형태가 일반적이었습니다.

이미지 → 비전 인코더 → LLM → 답변
오디오 → 오디오 인코더 → LLM → 답변
텍스트 → LLM → 답변

Gemma 4는 입력을 통합 처리 지점으로 묶는 형태를 지향합니다.

이미지 / 오디오 / 텍스트 → LLM 본체 기반 통합 처리 → 답변

“인코더 없음”은 전처리 없음이 아닙니다

중요한 오해 포인트입니다. 이미지를 그대로 LLM에 넣는 것은 아닙니다.
이미지는 LLM이 다룰 수 있도록 경량 임베딩/투영 단계가 필요합니다.
다만 기존처럼 거대하고 독립적인 전용 비전 인코더를 두는 방식 대신

전용 인코더를 줄이면 효율은 좋아지지만, 정밀 멀티모달 작업에서는 한계가 있을 수 있습니다.

OCR
세밀한 이미지 판독
오디오 전사 정확도

특히 정밀 분석이 핵심이라면 코드/문서 요약처럼 안정적 성격의 태스크뿐 아니라
이미지·오디오 태스크는 별도 벤치마크로 성능을 확인하는 게 좋습니다.

컨텍스트 길이

context length: 131072

최대 컨텍스트는 131,072 tokens로, 대략 128K 토큰 규모입니다.
128K를 지원한다고 해서 자동으로 속도와 정확도가 최적화되는 건 아닙니다.
컨텍스트가 길어질수록 비용이 늘어납니다.
- 프롬프트 처리 시간 증가, 메모리 사용량 증가, 응답 지연 증가, 장거리 문맥 참조 품질 저하 가능성

임베딩 차원

embedding length: 3840

임베딩 차원이 3840이라는 것은 토큰 하나를 3840차원 벡터로 표현한다는 뜻입니다. 예시:

"function" → 길이 3840의 실수 벡터

임베딩 차원이 클수록 표현력은 좋아질 수 있지만, 계산 비용도 함께 증가합니다.

양자화

quantization: nvfp4

nvfp4는 4비트 계열 양자화 방식입니다.
양자화는 모델 파라미터를 압축해 메모리 사용량을 낮추는 방법으로,
13B급 모델을 로컬에서 돌릴 수 있게 해주는 핵심 요소 중 하나입니다.

양자화의 장단점

장점

메모리 절감 - 로컬 실행 가능성 확대 > 일부 상황에서 속도 개선

단점

품질 저하 가능성 > 수학/코딩 같은 정밀 추론 정확도 하락 가능
멀티모달 인식 품질 저하 가능

thinking 모델

thinking 기능

더 긴 추론 과정을 만들 수 있는 모드입니다.
복잡한 문제에서 품질이 좋아질 수 있지만, 그만큼 출력이 길어져 응답 지연이 커질 수 있습니다.

24시간 가동 시 전기요금 체감

단순 가정으로 100W를 24시간 가동했을 때:

하루: 100W × 24시간 = 2.4kWh
월: 2.4kWh × 30일 = 72kWh
연간: 72kWh × 12개월 = 864kWh

누진제 적용 여부에 따라 다르지만, 월 1만~2만원대 정도를 대략적인 기준으로 잡을 수 있습니다.
Mac Studio M2 Max의 사용 전력을 대략치로 정리하면 아래와 같습니다.

사용 상황	전력
웹 서핑	20~40W
일반 개발	30~80W
Ollama 추론	80~150W
CPU+GPU 풀로드	120~250W

따라서 24시간 평균 100W는 보수적인(높은) 가정입니다.

66.7W 가정 시 월/연 사용량

0.0667kW × 24시간 = 1.6kWh/일
1.6kWh × 30일 = 48kWh/월
48kWh × 12개월 = 576kWh/년

이 경우 전기요금 기여분은 보통 월 5천~1만5천원 구간으로 추정

임베딩 모델 3종 비교

모델	크기	특징	장점	단점
`nomic-embed-text-v2-moe`	비공개(MoE)	다국어 최적화	한국어 포함 다국어 검색 강함	생성 AI 생태계 지원 적음
Qwen3 Embedding	0.6B / 4B / 8B	최신 범용 임베딩	성능 최고급, 긴 컨텍스트	무거움
EmbeddingGemma	300M	경량 임베딩	빠름, 저전력	성능은 상위 모델보다 낮음

성능 순위 (2026 기준)

검색(RAG) 품질 기준:

Qwen3-Embedding 8B
Qwen3-Embedding 4B
Nomic v2 MoE
EmbeddingGemma
Qwen3-Embedding 0.6B

현재 Ollama 생태계에서 많이 쓰는 조합

Embedding
 └─ qwen3-embedding (Qwen3 Embedding | 0.6B 만 해도 크다.)  
Retriever
 └─ Qdrant
Generator
 └─ Gemma4 / Qwen3 / DeepSeek
Framework
 └─ LangGraph

4. Models

Gemma 4 12B-MLX + Mac Studio 로컬 LLM 정리​

모델의 파라미터​

architecture: gemma4_unified​

컨텍스트 길이​

임베딩 차원​

양자화​

thinking 모델​

24시간 가동 시 전기요금 체감​

임베딩 모델 3종 비교​

성능 순위 (2026 기준)​

현재 Ollama 생태계에서 많이 쓰는 조합​