용어집 · 용어

강화학습

다른 표기: reinforcement learning, RL

잘하면 보상, 못하면 벌점을 주며 시행착오로 배우게 하는 학습 방식입니다. 알파고와 추론 모델의 핵심 기법입니다.

강화학습은 정답을 직접 알려주는 대신, 행동의 결과에 보상이나 벌점을 주어 시행착오 속에서 더 나은 행동을 스스로 찾게 하는 학습 방식입니다. 강아지에게 앉는 법을 가르칠 때 말로 설명하는 것이 아니라, 잘했을 때 간식을 주는 훈련을 반복하는 것과 같은 원리입니다.

정답 데이터를 만들기 어렵지만 결과의 좋고 나쁨은 판단할 수 있는 문제, 예컨대 게임, 로봇 제어 등에 적합해 발전했습니다. 바둑에서 인간을 넘어선 알파고의 핵심 기법이었고, 최근에는 수학이나 코딩처럼 정답 확인이 가능한 과제로 LLM을 훈련시키는 추론 모델의 원동력으로 다시 주목받고 있습니다.

다만 보상 설계가 잘못되면 AI가 의도와 다른 꼼수로 점수만 챙기는 보상 해킹이 일어날 수 있어, 무엇에 보상을 줄지 정하는 일이 가장 어려운 부분으로 꼽힙니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기