용어집 · 용어
전문가 혼합
모델 내부를 여러 전문가로 나눠 질문마다 일부만 작동시키는 구조입니다. 큰 성능을 적은 비용으로 내는 비결로 쓰입니다.
전문가 혼합(MoE, Mixture of Experts)은 하나의 거대한 모델을 통째로 쓰는 대신, 내부를 여러 전문가 블록으로 나누고 입력마다 필요한 일부만 골라 계산하는 구조입니다. 종합병원에서 환자를 증상에 맞는 진료과로 안내하듯, 라우터라는 장치가 각 입력을 적합한 전문가에게 배정합니다.
전체 파라미터는 크게 유지하면서 실제 계산은 일부만 하기 때문에, 같은 비용으로 더 큰 모델의 효과를 낼 수 있습니다. 이런 효율성 덕분에 최근 공개되는 대형 언어 모델 상당수가 MoE 구조를 채택하고 있습니다.
흔한 오해는 각 전문가가 수학 담당, 법률 담당처럼 사람이 이해하는 분야를 맡는다고 생각하는 것입니다. 실제로는 학습 과정에서 자동으로 역할이 나뉘며, 그 분담 기준은 사람의 직관과 다를 수 있습니다.
✅ 왜 중요한가 · 장점
- 같은 계산 비용으로 더 큰 모델급 성능을 낼 수 있습니다
- 추론 시 일부 전문가만 작동해 속도와 비용 면에서 효율적입니다
- 모델 규모 확장 경쟁에서 현실적인 대안으로 자리 잡았습니다
⚠️ 한계 · 논쟁
- 전체 파라미터를 메모리에 올려야 해서 메모리 요구량은 여전히 큽니다
- 학습이 불안정해지기 쉬워 훈련 난이도가 높습니다
- 전문가 분담이 사람이 생각하는 전문 분야와 일치하지 않는 경우가 많습니다