용어집 · 용어

RLHF

다른 표기: 인간 피드백 강화학습

사람이 AI 답변에 점수를 매겨 더 유용하고 안전한 답을 하도록 다듬는 훈련 기법입니다. ChatGPT를 쓸만하게 만든 핵심 기술로 꼽힙니다.

RLHF(인간 피드백 기반 강화학습)는 AI가 내놓은 여러 답변에 사람이 순위를 매기고, 그 선호 데이터를 바탕으로 모델이 더 마음에 드는 답을 하도록 다듬는 훈련 기법입니다. 요리사가 신메뉴 시식단의 평가를 반영해 레시피를 계속 고쳐가는 과정에 비유할 수 있습니다.

사전학습만 마친 모델은 지식은 많지만 무례하거나 위험한 답도 거리낌 없이 내놓습니다. RLHF는 이런 원석 상태의 모델을 유용하고 안전한 조수로 바꾸는 마감 공정으로, ChatGPT가 대중적으로 성공한 비결로 꼽히며 이후 대화형 AI의 표준 훈련 단계가 되었습니다.

다만 사람의 선호에 맞추는 과정에서 부작용도 생깁니다. 평가자들의 취향과 편향이 모델에 스며들고, 정확한 답보다 듣기 좋은 답을 하는 아부 성향이 생긴다는 지적이 대표적입니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기