용어집 · 용어

합성 데이터

다른 표기: synthetic data

AI가 만들어낸 데이터를 다시 AI 학습에 쓰는 것입니다. 실데이터 고갈의 대안이자 품질 저하 논쟁의 대상입니다.

합성 데이터는 실제 세계에서 수집한 것이 아니라 AI나 시뮬레이션이 인공적으로 만들어낸 데이터를 학습에 활용하는 것을 말합니다. 실제 환자 기록 대신 통계적 특성이 같은 가상의 환자 기록을 만들어 연구에 쓰거나, AI가 만든 수학 문제 풀이로 다른 AI를 가르치는 식입니다.

인터넷의 고품질 학습 데이터가 바닥나고 있다는 우려, 그리고 개인정보 규제로 실데이터 활용이 어려워진 상황이 합성 데이터를 부상시켰습니다. 실제로 최신 모델 훈련에 합성 데이터가 폭넓게 활용되고 있으며, 자율주행의 가상 주행 시뮬레이션처럼 위험한 상황을 안전하게 학습시키는 용도로도 쓰입니다.

다만 AI가 만든 데이터로 AI를 반복 학습시키면 오류와 편향이 누적되어 품질이 점점 나빠질 수 있다는 모델 붕괴 우려가 논쟁거리이며, 실데이터와의 적절한 배합과 품질 검증이 관건으로 꼽힙니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기