용어집 · 용어
데이터셋
AI 학습에 쓰이는 데이터 묶음입니다. 품질과 규모가 AI 성능을 좌우하며, 저작권 논쟁의 중심이기도 합니다.
데이터셋은 AI 학습에 쓰이는 데이터 묶음입니다. AI를 학생에 비유하면 데이터셋은 교과서와 문제집에 해당하며, 무엇을 얼마나 읽고 배웠는지가 그 학생의 실력을 결정합니다.
모델 구조가 비슷해도 데이터셋의 품질과 규모에 따라 성능이 크게 갈리기 때문에, 좋은 데이터셋 확보가 AI 경쟁력의 핵심이 되었습니다. 웹 전체를 긁어 만든 초대형 텍스트 데이터셋이 LLM의 기반이 되었고, 연구용으로 공개된 표준 데이터셋들은 기술 발전을 가속해 왔습니다.
한편 웹에서 수집한 데이터셋에는 저작물, 개인정보, 편향된 내용이 섞여 들어가기 쉬워 저작권 소송과 윤리 논쟁의 중심에 있습니다. 인터넷의 양질 데이터가 고갈되어 간다는 우려와 함께, AI가 만든 합성 데이터로 학습하는 방안도 논의되고 있습니다.
✅ 왜 중요한가 · 장점
- AI 성능의 근원을 이해하는 가장 기본적인 개념입니다
- 데이터 확보 경쟁과 저작권 분쟁 뉴스를 해석하는 열쇠가 됩니다
- 기업의 자체 데이터가 AI 시대의 자산인 이유를 설명해 줍니다
⚠️ 한계 · 논쟁
- 웹 수집 데이터에 저작물과 개인정보가 섞여 법적 분쟁이 진행 중입니다
- 데이터에 담긴 편향이 AI의 편향으로 그대로 이어집니다
- 양질의 데이터가 고갈되어 간다는 우려가 제기되고 있습니다