용어집 · 용어
벤치마크
AI 성능을 비교하는 표준 시험입니다. 신모델 발표 때 나오는 점수표가 이것이며, 시험 대비 훈련 논란도 잦습니다.
벤치마크는 여러 AI 모델의 성능을 같은 조건에서 비교하기 위한 표준 시험입니다. 학생들의 실력을 같은 수능 문제로 비교하듯, 수학 문제 풀이, 코딩, 상식 문답 같은 공통 문제 세트로 모델들의 점수를 매깁니다.
새 모델이 발표될 때마다 나오는 점수표와 순위가 바로 이것으로, 어느 모델이 더 뛰어난지 판단하는 업계 공용 잣대 역할을 합니다. 연구자에게는 기술 발전을 측정하는 도구, 이용자에게는 모델 선택의 참고 자료가 됩니다.
다만 시험 문제가 학습 데이터에 섞여 들어가는 오염 문제, 벤치마크 점수만 노린 시험 대비형 훈련 논란이 끊이지 않습니다. 점수가 높다고 실제 업무에서 반드시 더 유용한 것은 아니므로, 벤치마크는 참고 자료로만 보는 것이 안전합니다.
✅ 왜 중요한가 · 장점
- 여러 모델을 같은 잣대로 비교할 수 있는 거의 유일한 공용 수단입니다
- 신모델 발표 뉴스의 점수표를 해석할 수 있게 해줍니다
- AI 기술이 얼마나 빠르게 발전하는지 추적하는 지표가 됩니다
⚠️ 한계 · 논쟁
- 시험 문제가 학습 데이터에 유출되는 오염 문제가 반복됩니다
- 점수 올리기에 최적화된 훈련으로 실력이 부풀려질 수 있습니다
- 벤치마크 점수와 실제 업무 유용성이 일치하지 않는 경우가 많습니다