용어집 · 용어
정렬
AI가 인간의 의도와 가치에 맞게 행동하도록 만드는 연구 분야입니다. AI 안전 논의의 핵심 개념입니다.
정렬은 AI가 인간의 의도와 가치에 맞게 행동하도록 만드는 연구 분야입니다. 소원을 문자 그대로만 들어주는 램프의 요정처럼, AI는 시킨 것을 엉뚱한 방식으로 달성할 수 있기 때문에, 말의 표면이 아니라 진짜 의도를 따르게 만드는 것이 핵심 과제입니다.
AI가 강력해질수록 잘못 정렬된 목표의 피해도 커진다는 문제의식에서 등장했으며, AI 안전 논의의 중심 개념입니다. 사람의 피드백으로 모델을 다듬는 RLHF 같은 기법이 대표적인 정렬 기술로, ChatGPT류 서비스가 무례하거나 위험한 답을 덜 하도록 만드는 데 실제로 쓰였습니다.
정렬은 한 번 하면 끝나는 작업이 아니라 계속되는 과정입니다. 또한 누구의 가치에 맞출 것인가라는 근본 질문이 남아 있어, 기술 문제인 동시에 사회적 합의의 문제이기도 합니다.
✅ 왜 중요한가 · 장점
- AI 안전 논의를 이해하는 데 가장 중심이 되는 개념입니다
- ChatGPT류 서비스의 답변 성향이 왜 그런지 이해하게 해줍니다
- AGI 논쟁, 규제 논의와 직결되어 뉴스 이해에 도움이 됩니다
⚠️ 한계 · 논쟁
- 누구의 가치에 정렬할 것인가에 대한 사회적 합의가 없습니다
- 과도한 정렬은 답변 회피나 유용성 저하로 이어진다는 비판이 있습니다
- 현재 기법으로는 겉으로만 순응하는 문제를 완전히 막기 어렵다는 지적이 있습니다