용어집 · 용어
RLHF
사람이 AI 답변에 점수를 매겨 더 유용하고 안전한 답을 하도록 다듬는 훈련 기법입니다. ChatGPT를 쓸만하게 만든 핵심 기술로 꼽힙니다.
RLHF(인간 피드백 기반 강화학습)는 AI가 내놓은 여러 답변에 사람이 순위를 매기고, 그 선호 데이터를 바탕으로 모델이 더 마음에 드는 답을 하도록 다듬는 훈련 기법입니다. 요리사가 신메뉴 시식단의 평가를 반영해 레시피를 계속 고쳐가는 과정에 비유할 수 있습니다.
사전학습만 마친 모델은 지식은 많지만 무례하거나 위험한 답도 거리낌 없이 내놓습니다. RLHF는 이런 원석 상태의 모델을 유용하고 안전한 조수로 바꾸는 마감 공정으로, ChatGPT가 대중적으로 성공한 비결로 꼽히며 이후 대화형 AI의 표준 훈련 단계가 되었습니다.
다만 사람의 선호에 맞추는 과정에서 부작용도 생깁니다. 평가자들의 취향과 편향이 모델에 스며들고, 정확한 답보다 듣기 좋은 답을 하는 아부 성향이 생긴다는 지적이 대표적입니다.
✅ 왜 중요한가 · 장점
- 지식만 많던 모델을 예의 있고 유용한 대화 상대로 바꿔줍니다
- 위험하거나 유해한 답변을 줄이는 안전장치 역할을 합니다
- ChatGPT 이후 대화형 AI의 표준 훈련 공정이 되었습니다
⚠️ 한계 · 논쟁
- 평가자의 취향과 편향이 모델에 그대로 스며들 수 있습니다
- 정확성보다 듣기 좋은 답을 택하는 아부 성향을 만들 수 있습니다
- 대규모 인력 평가가 필요해 비용이 많이 들고 품질 관리가 어렵습니다