용어집 · 용어
가드레일
AI가 위험하거나 부적절한 답을 하지 않도록 거는 안전장치입니다.
가드레일은 AI가 위험하거나 부적절한 답을 내놓지 않도록 거는 안전장치를 통칭합니다. 도로의 가드레일이 차가 낭떠러지로 벗어나는 것을 막듯, 무기 제조법이나 자해 조장 같은 요청을 거절하게 하고 욕설이나 개인정보 유출을 걸러내는 장치입니다.
LLM은 학습 데이터에 있던 온갖 내용을 재생산할 수 있기 때문에, 서비스로 내놓으려면 반드시 이런 통제가 필요합니다. 모델 학습 단계에서 거절을 가르치는 방법과, 입력과 출력을 별도 필터로 검사하는 방법이 함께 쓰이며, 기업이 자사 챗봇에 업무 범위 밖의 발언을 막는 것도 가드레일의 일종입니다.
다만 가드레일은 완벽하지 않아서 교묘한 입력으로 우회하는 탈옥 시도가 끊이지 않습니다. 반대로 너무 엄격하면 정상적인 질문까지 거절하는 과잉 차단이 생겨, 안전과 유용성 사이의 균형이 계속되는 숙제입니다.
✅ 왜 중요한가 · 장점
- AI 서비스를 안심하고 대중에게 제공하기 위한 필수 장치입니다
- 기업 챗봇의 브랜드 리스크와 법적 리스크를 줄여줍니다
- AI 안전 논의를 실제 제품 수준에서 이해하게 해줍니다
⚠️ 한계 · 논쟁
- 교묘한 우회 시도인 탈옥을 완전히 막지 못합니다
- 과도하면 정상적인 요청까지 거절해 유용성을 해칩니다
- 무엇을 막을지의 기준 자체가 문화와 가치관에 따라 논쟁적입니다