용어집 · 용어

사전학습

다른 표기: pre-training, 프리트레이닝

방대한 텍스트로 언어의 기본기를 익히는 AI 훈련의 첫 단계입니다. 이후 파인튜닝으로 용도에 맞게 다듬습니다.

사전학습은 AI 모델을 만들 때 가장 먼저 거치는 단계로, 인터넷 문서와 책 등 방대한 텍스트를 읽히며 다음에 올 단어를 예측하는 훈련을 반복시키는 과정입니다. 특정 시험을 준비하기 전에 국어, 수학, 상식을 두루 익히는 기초 교육에 비유할 수 있으며, 이 과정에서 문법, 지식, 추론의 기본기가 만들어집니다.

과제마다 모델을 처음부터 새로 만드는 것은 비효율적이기 때문에, 한 번 크게 학습해 두고 여러 용도로 재활용하자는 발상에서 자리 잡았습니다. GPT의 P가 Pretrained의 약자일 만큼 현대 LLM의 근간이며, 사전학습을 마친 모델을 파인튜닝과 RLHF로 다듬어 실제 서비스가 됩니다.

사전학습에는 막대한 GPU와 전력이 들어 비용이 천문학적이라는 점, 그리고 학습 데이터의 저작권 문제가 소송으로 이어지고 있다는 점이 주요 이슈입니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기