용어집 · 용어

데이터셋

다른 표기: dataset, 학습 데이터

AI 학습에 쓰이는 데이터 묶음입니다. 품질과 규모가 AI 성능을 좌우하며, 저작권 논쟁의 중심이기도 합니다.

데이터셋은 AI 학습에 쓰이는 데이터 묶음입니다. AI를 학생에 비유하면 데이터셋은 교과서와 문제집에 해당하며, 무엇을 얼마나 읽고 배웠는지가 그 학생의 실력을 결정합니다.

모델 구조가 비슷해도 데이터셋의 품질과 규모에 따라 성능이 크게 갈리기 때문에, 좋은 데이터셋 확보가 AI 경쟁력의 핵심이 되었습니다. 웹 전체를 긁어 만든 초대형 텍스트 데이터셋이 LLM의 기반이 되었고, 연구용으로 공개된 표준 데이터셋들은 기술 발전을 가속해 왔습니다.

한편 웹에서 수집한 데이터셋에는 저작물, 개인정보, 편향된 내용이 섞여 들어가기 쉬워 저작권 소송과 윤리 논쟁의 중심에 있습니다. 인터넷의 양질 데이터가 고갈되어 간다는 우려와 함께, AI가 만든 합성 데이터로 학습하는 방안도 논의되고 있습니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기