용어집 · 용어
합성 데이터
AI가 만들어낸 데이터를 다시 AI 학습에 쓰는 것입니다. 실데이터 고갈의 대안이자 품질 저하 논쟁의 대상입니다.
합성 데이터는 실제 세계에서 수집한 것이 아니라 AI나 시뮬레이션이 인공적으로 만들어낸 데이터를 학습에 활용하는 것을 말합니다. 실제 환자 기록 대신 통계적 특성이 같은 가상의 환자 기록을 만들어 연구에 쓰거나, AI가 만든 수학 문제 풀이로 다른 AI를 가르치는 식입니다.
인터넷의 고품질 학습 데이터가 바닥나고 있다는 우려, 그리고 개인정보 규제로 실데이터 활용이 어려워진 상황이 합성 데이터를 부상시켰습니다. 실제로 최신 모델 훈련에 합성 데이터가 폭넓게 활용되고 있으며, 자율주행의 가상 주행 시뮬레이션처럼 위험한 상황을 안전하게 학습시키는 용도로도 쓰입니다.
다만 AI가 만든 데이터로 AI를 반복 학습시키면 오류와 편향이 누적되어 품질이 점점 나빠질 수 있다는 모델 붕괴 우려가 논쟁거리이며, 실데이터와의 적절한 배합과 품질 검증이 관건으로 꼽힙니다.
✅ 왜 중요한가 · 장점
- 실데이터 고갈과 데이터 부족 문제의 현실적 대안이 됩니다
- 개인정보 없이 학습 데이터를 만들 수 있어 규제 대응에 유리합니다
- 희귀하거나 위험한 상황의 데이터를 안전하게 대량 생산할 수 있습니다
⚠️ 한계 · 논쟁
- AI 생성 데이터로 반복 학습하면 품질이 저하되는 모델 붕괴 우려가 있습니다
- 원본 모델의 오류와 편향이 합성 데이터에 그대로 복제됩니다
- 실제 세계의 미묘한 다양성을 완전히 재현하지 못할 수 있습니다