용어집 · 용어

정렬

다른 표기: alignment, 얼라인먼트

AI가 인간의 의도와 가치에 맞게 행동하도록 만드는 연구 분야입니다. AI 안전 논의의 핵심 개념입니다.

정렬은 AI가 인간의 의도와 가치에 맞게 행동하도록 만드는 연구 분야입니다. 소원을 문자 그대로만 들어주는 램프의 요정처럼, AI는 시킨 것을 엉뚱한 방식으로 달성할 수 있기 때문에, 말의 표면이 아니라 진짜 의도를 따르게 만드는 것이 핵심 과제입니다.

AI가 강력해질수록 잘못 정렬된 목표의 피해도 커진다는 문제의식에서 등장했으며, AI 안전 논의의 중심 개념입니다. 사람의 피드백으로 모델을 다듬는 RLHF 같은 기법이 대표적인 정렬 기술로, ChatGPT류 서비스가 무례하거나 위험한 답을 덜 하도록 만드는 데 실제로 쓰였습니다.

정렬은 한 번 하면 끝나는 작업이 아니라 계속되는 과정입니다. 또한 누구의 가치에 맞출 것인가라는 근본 질문이 남아 있어, 기술 문제인 동시에 사회적 합의의 문제이기도 합니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기