용어집 · 용어

가드레일

다른 표기: guardrail

AI가 위험하거나 부적절한 답을 하지 않도록 거는 안전장치입니다.

가드레일은 AI가 위험하거나 부적절한 답을 내놓지 않도록 거는 안전장치를 통칭합니다. 도로의 가드레일이 차가 낭떠러지로 벗어나는 것을 막듯, 무기 제조법이나 자해 조장 같은 요청을 거절하게 하고 욕설이나 개인정보 유출을 걸러내는 장치입니다.

LLM은 학습 데이터에 있던 온갖 내용을 재생산할 수 있기 때문에, 서비스로 내놓으려면 반드시 이런 통제가 필요합니다. 모델 학습 단계에서 거절을 가르치는 방법과, 입력과 출력을 별도 필터로 검사하는 방법이 함께 쓰이며, 기업이 자사 챗봇에 업무 범위 밖의 발언을 막는 것도 가드레일의 일종입니다.

다만 가드레일은 완벽하지 않아서 교묘한 입력으로 우회하는 탈옥 시도가 끊이지 않습니다. 반대로 너무 엄격하면 정상적인 질문까지 거절하는 과잉 차단이 생겨, 안전과 유용성 사이의 균형이 계속되는 숙제입니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기