용어집 · 용어

탈옥

다른 표기: jailbreak, 제일브레이크

교묘한 입력으로 AI의 안전장치를 우회해 금지된 답을 끌어내는 행위입니다.

탈옥은 교묘하게 설계된 입력으로 AI의 안전장치를 우회해, 원래는 거절해야 할 답변을 끌어내는 행위입니다. 예를 들어 소설 속 악당의 대사라고 상황극을 시키거나 지시를 여러 겹으로 꼬아서, 정면으로 물으면 거절할 내용을 말하게 만드는 식입니다.

AI의 가드레일이 얼마나 견고한지 시험하는 과정에서 자연스럽게 등장했고, 보안 연구자들은 취약점을 미리 찾기 위해 의도적으로 탈옥을 시도하는 레드팀 활동을 합니다. AI 기업들은 발견된 수법을 막는 패치를 반복하지만, 새로운 우회법이 계속 나오는 창과 방패의 싸움이 이어지고 있습니다.

탈옥은 AI 안전이 한 번의 설계로 끝나지 않는 지속적 과제임을 보여줍니다. 기업용 챗봇이 탈옥당해 엉뚱한 약속이나 부적절한 발언을 하면 실제 손해로 이어질 수 있어, AI 도입 기업에게도 남의 일이 아닙니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기