용어집 · 용어

탈옥

다른 표기: jailbreak, 제일브레이크

교묘한 입력으로 AI의 안전장치를 우회해 금지된 답을 끌어내는 행위입니다.

탈옥은 교묘하게 설계된 입력으로 AI의 안전장치를 우회해, 원래는 거절해야 할 답변을 끌어내는 행위입니다. 예를 들어 소설 속 악당의 대사라고 상황극을 시키거나 지시를 여러 겹으로 꼬아서, 정면으로 물으면 거절할 내용을 말하게 만드는 식입니다.

AI의 가드레일이 얼마나 견고한지 시험하는 과정에서 자연스럽게 등장했고, 보안 연구자들은 취약점을 미리 찾기 위해 의도적으로 탈옥을 시도하는 레드팀 활동을 합니다. AI 기업들은 발견된 수법을 막는 패치를 반복하지만, 새로운 우회법이 계속 나오는 창과 방패의 싸움이 이어지고 있습니다.

탈옥은 AI 안전이 한 번의 설계로 끝나지 않는 지속적 과제임을 보여줍니다. 기업용 챗봇이 탈옥당해 엉뚱한 약속이나 부적절한 발언을 하면 실제 손해로 이어질 수 있어, AI 도입 기업에게도 남의 일이 아닙니다.

✅ 왜 중요한가 · 장점

AI 안전장치의 한계와 작동 방식을 이해하게 해줍니다
기업이 챗봇 도입 시 점검해야 할 보안 리스크를 알려줍니다
레드팀 등 AI 보안 산업이 존재하는 이유를 설명해 줍니다

⚠️ 한계 · 논쟁

악용될 경우 위험 정보 유출과 서비스 오남용으로 이어집니다
막는 패치와 새 우회법이 반복되어 근본 해결이 어렵습니다
연구 목적과 악의적 시도의 경계가 모호하다는 논쟁이 있습니다