용어집 · 용어

벤치마크

다른 표기: benchmark

AI 성능을 비교하는 표준 시험입니다. 신모델 발표 때 나오는 점수표가 이것이며, 시험 대비 훈련 논란도 잦습니다.

벤치마크는 여러 AI 모델의 성능을 같은 조건에서 비교하기 위한 표준 시험입니다. 학생들의 실력을 같은 수능 문제로 비교하듯, 수학 문제 풀이, 코딩, 상식 문답 같은 공통 문제 세트로 모델들의 점수를 매깁니다.

새 모델이 발표될 때마다 나오는 점수표와 순위가 바로 이것으로, 어느 모델이 더 뛰어난지 판단하는 업계 공용 잣대 역할을 합니다. 연구자에게는 기술 발전을 측정하는 도구, 이용자에게는 모델 선택의 참고 자료가 됩니다.

다만 시험 문제가 학습 데이터에 섞여 들어가는 오염 문제, 벤치마크 점수만 노린 시험 대비형 훈련 논란이 끊이지 않습니다. 점수가 높다고 실제 업무에서 반드시 더 유용한 것은 아니므로, 벤치마크는 참고 자료로만 보는 것이 안전합니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기