용어집 · 용어

TTS

다른 표기: 음성 합성, text to speech

글을 자연스러운 음성으로 읽어주는 기술입니다. AI 더빙과 오디오북의 기반입니다.

TTS(Text to Speech)는 글로 된 문장을 사람 목소리처럼 자연스러운 음성으로 바꿔 읽어주는 기술로, 음성 합성이라고도 합니다. 과거의 딱딱한 기계음 안내방송과 달리, 최근의 TTS는 억양과 감정, 숨소리까지 재현해 성우 낭독과 구분이 어려운 수준에 도달했습니다.

화면을 볼 수 없는 상황이나 시각장애인을 위한 정보 접근 수단에서 출발해, 지금은 내비게이션 안내, 오디오북, 영상 더빙, AI 통화 비서 등으로 활용이 넓어졌습니다. 특히 몇 초 분량의 샘플로 특정인의 목소리를 재현하는 음성 복제 기술이 더해지면서 콘텐츠 제작 방식을 바꾸고 있습니다.

다만 목소리 복제가 쉬워진 만큼 보이스피싱과 딥페이크 음성 악용 우려가 커졌고, 성우 등 목소리 직업의 권리 문제도 새로운 쟁점이 되고 있습니다.

✅ 왜 중요한가 · 장점

오디오북, 더빙, 안내 음성 등 콘텐츠 제작 비용을 크게 낮춥니다
시각장애인 등 정보 접근성을 높이는 핵심 기술입니다
다국어 음성 변환으로 콘텐츠의 해외 진출을 쉽게 합니다

⚠️ 한계 · 논쟁

목소리 복제를 악용한 보이스피싱과 딥페이크 위험이 커졌습니다
성우 등 목소리 관련 직업의 권리와 생계 문제가 쟁점입니다
긴 문장이나 감정 표현에서 여전히 부자연스러운 경우가 있습니다