용어집 · 용어
사전학습
방대한 텍스트로 언어의 기본기를 익히는 AI 훈련의 첫 단계입니다. 이후 파인튜닝으로 용도에 맞게 다듬습니다.
사전학습은 AI 모델을 만들 때 가장 먼저 거치는 단계로, 인터넷 문서와 책 등 방대한 텍스트를 읽히며 다음에 올 단어를 예측하는 훈련을 반복시키는 과정입니다. 특정 시험을 준비하기 전에 국어, 수학, 상식을 두루 익히는 기초 교육에 비유할 수 있으며, 이 과정에서 문법, 지식, 추론의 기본기가 만들어집니다.
과제마다 모델을 처음부터 새로 만드는 것은 비효율적이기 때문에, 한 번 크게 학습해 두고 여러 용도로 재활용하자는 발상에서 자리 잡았습니다. GPT의 P가 Pretrained의 약자일 만큼 현대 LLM의 근간이며, 사전학습을 마친 모델을 파인튜닝과 RLHF로 다듬어 실제 서비스가 됩니다.
사전학습에는 막대한 GPU와 전력이 들어 비용이 천문학적이라는 점, 그리고 학습 데이터의 저작권 문제가 소송으로 이어지고 있다는 점이 주요 이슈입니다.
✅ 왜 중요한가 · 장점
- 한 번의 대규모 학습으로 다양한 과제에 재활용할 수 있는 기반을 만듭니다
- 모델의 지식과 언어 능력 대부분이 이 단계에서 형성됩니다
- LLM 개발 경쟁과 GPU 수요를 이해하는 핵심 개념입니다
⚠️ 한계 · 논쟁
- 막대한 계산 자원과 전력이 필요해 소수 기업만 감당할 수 있습니다
- 학습 데이터의 저작권과 개인정보 문제가 법적 쟁점이 되고 있습니다
- 학습 시점 이후의 정보는 알지 못해 별도 보완이 필요합니다