용어집 · 용어

레드팀

다른 표기: red team, 레드티밍

AI의 허점을 일부러 공격해보며 위험을 미리 찾아내는 검증 활동입니다.

레드팀은 아군을 공격하는 가상의 적군 역할을 맡는 팀을 뜻하는 군사 용어에서 왔으며, AI 분야에서는 출시 전 모델을 일부러 공격하고 속여보며 위험한 반응을 끌어내는 검증 활동을 말합니다. 은행이 보안을 점검하려고 모의 해커를 고용해 금고를 털어보게 하는 것과 같은 원리입니다.

AI가 위험한 정보 제공, 편향 발언, 탈옥 유도 등에 어떻게 반응하는지는 실제로 찔러봐야 알 수 있기 때문에, 주요 AI 기업들은 모델 출시 전 내외부 레드팀 검증을 표준 절차로 운영합니다. 각국의 AI 규제 논의에서도 위험 평가 수단으로 자주 언급됩니다.

다만 레드팀이 모든 허점을 찾아낼 수는 없습니다. 출시 후 이용자들이 새로운 우회법을 계속 발견하기 때문에, 한 번의 검증이 아니라 지속적인 과정으로 봐야 합니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기