용어집 · 용어
모델 경량화
큰 AI 모델을 성능 손실을 최소화하며 작게 줄이는 기술입니다. 온디바이스 AI의 전제 조건입니다.
모델 경량화는 수십억 개의 값으로 이뤄진 거대한 AI 모델을, 성능은 최대한 지키면서 크기와 계산량만 줄이는 기술을 통칭합니다. 두꺼운 백과사전을 핵심만 추린 문고판으로 만드는 작업에 비유할 수 있으며, 대표 기법으로 양자화, 가지치기(프루닝), 지식 증류 등이 있습니다.
거대 모델은 비싼 서버와 GPU가 있어야 돌아가기 때문에, 스마트폰이나 노트북 같은 작은 기기에서 AI를 쓰려면 경량화가 필수입니다. 서비스 운영비를 줄이려는 기업들도 같은 이유로 경량화 기술에 투자하고 있습니다.
경량화는 공짜가 아니라는 점을 알아둘 필요가 있습니다. 압축 정도가 심해질수록 미묘한 추론 능력이나 드물게 쓰이는 지식부터 성능이 깎이기 쉬워서, 용도에 맞는 균형점을 찾는 것이 핵심입니다.
✅ 왜 중요한가 · 장점
- 스마트폰 등 작은 기기에서도 AI를 실행할 수 있게 합니다
- 서버 비용과 전력 소모를 줄여 서비스 운영비를 낮춥니다
- 응답 속도가 빨라져 실시간 서비스에 유리합니다
⚠️ 한계 · 논쟁
- 압축할수록 성능이 조금씩 손실되며 어려운 작업일수록 티가 납니다
- 기법마다 장단점이 달라 용도별 실험과 검증이 필요합니다
- 성능 저하가 눈에 잘 띄지 않아 배포 후에야 문제가 드러나기도 합니다