용어집 · 용어

양자화

다른 표기: quantization

모델의 숫자 정밀도를 낮춰 크기와 계산량을 줄이는 대표적인 경량화 기법입니다.

양자화는 AI 모델을 이루는 숫자들의 정밀도를 낮춰 저장 용량과 계산량을 줄이는 경량화 기법입니다. 사진의 화질을 살짝 낮춰 파일 크기를 확 줄이는 것과 비슷하게, 소수점 아래 자릿수를 촘촘하게 기록하던 값을 더 단순한 숫자로 근사해 표현합니다.

고성능 모델을 일반 GPU나 노트북, 스마트폰에서도 돌릴 수 있게 하려는 목적으로 널리 쓰입니다. 특히 오픈 웨이트 모델을 개인 컴퓨터에서 실행하는 문화가 퍼지면서, 양자화된 모델 파일을 내려받아 쓰는 것이 사실상 표준처럼 자리 잡았습니다.

정밀도를 얼마나 낮추느냐에 따라 성능 손실이 달라지며, 지나치게 압축하면 미묘한 추론이나 긴 문맥 처리에서 품질 저하가 나타날 수 있습니다. 손실을 줄이기 위한 다양한 보정 기법이 함께 발전하고 있습니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기