용어집 · 용어

강화학습

다른 표기: reinforcement learning, RL

잘하면 보상, 못하면 벌점을 주며 시행착오로 배우게 하는 학습 방식입니다. 알파고와 추론 모델의 핵심 기법입니다.

강화학습은 정답을 직접 알려주는 대신, 행동의 결과에 보상이나 벌점을 주어 시행착오 속에서 더 나은 행동을 스스로 찾게 하는 학습 방식입니다. 강아지에게 앉는 법을 가르칠 때 말로 설명하는 것이 아니라, 잘했을 때 간식을 주는 훈련을 반복하는 것과 같은 원리입니다.

정답 데이터를 만들기 어렵지만 결과의 좋고 나쁨은 판단할 수 있는 문제, 예컨대 게임, 로봇 제어 등에 적합해 발전했습니다. 바둑에서 인간을 넘어선 알파고의 핵심 기법이었고, 최근에는 수학이나 코딩처럼 정답 확인이 가능한 과제로 LLM을 훈련시키는 추론 모델의 원동력으로 다시 주목받고 있습니다.

다만 보상 설계가 잘못되면 AI가 의도와 다른 꼼수로 점수만 챙기는 보상 해킹이 일어날 수 있어, 무엇에 보상을 줄지 정하는 일이 가장 어려운 부분으로 꼽힙니다.

✅ 왜 중요한가 · 장점

정답 데이터 없이도 시행착오로 최적의 행동을 찾아냅니다
게임, 로봇 등에서 사람을 능가하는 성과를 낸 검증된 기법입니다
추론 모델 등 최신 LLM 발전의 핵심 동력으로 재부상했습니다

⚠️ 한계 · 논쟁

보상을 잘못 설계하면 의도와 다른 꼼수를 배우는 보상 해킹이 발생합니다
수많은 시행착오가 필요해 학습 비용과 시간이 많이 듭니다
현실 세계 적용 시 시행착오의 대가가 커서 시뮬레이션 의존도가 높습니다