용어집 · 용어
레드팀
AI의 허점을 일부러 공격해보며 위험을 미리 찾아내는 검증 활동입니다.
레드팀은 아군을 공격하는 가상의 적군 역할을 맡는 팀을 뜻하는 군사 용어에서 왔으며, AI 분야에서는 출시 전 모델을 일부러 공격하고 속여보며 위험한 반응을 끌어내는 검증 활동을 말합니다. 은행이 보안을 점검하려고 모의 해커를 고용해 금고를 털어보게 하는 것과 같은 원리입니다.
AI가 위험한 정보 제공, 편향 발언, 탈옥 유도 등에 어떻게 반응하는지는 실제로 찔러봐야 알 수 있기 때문에, 주요 AI 기업들은 모델 출시 전 내외부 레드팀 검증을 표준 절차로 운영합니다. 각국의 AI 규제 논의에서도 위험 평가 수단으로 자주 언급됩니다.
다만 레드팀이 모든 허점을 찾아낼 수는 없습니다. 출시 후 이용자들이 새로운 우회법을 계속 발견하기 때문에, 한 번의 검증이 아니라 지속적인 과정으로 봐야 합니다.
✅ 왜 중요한가 · 장점
- 출시 전에 AI의 위험한 반응과 허점을 미리 발견할 수 있습니다
- AI 안전성 검증의 업계 표준 절차로 자리 잡았습니다
- AI 규제와 안전 뉴스를 이해하는 데 필요한 기본 개념입니다
⚠️ 한계 · 논쟁
- 모든 공격 경로를 사전에 발견하는 것은 불가능합니다
- 검증 결과가 외부에 투명하게 공개되지 않는 경우가 많습니다
- 찾아낸 문제를 고치면 다른 능력이 위축되는 부작용이 생기기도 합니다