용어집 · 용어

STT

다른 표기: 음성 인식, speech to text

말을 글로 받아 적는 기술입니다. 회의록 자동 작성과 자막 생성에 쓰입니다.

STT(Speech to Text)는 사람의 음성을 인식해 문자로 변환하는 기술로, 음성 인식이라고도 부릅니다. 회의 자리에서 오가는 대화를 속기사가 받아 적듯, AI가 말소리를 듣고 실시간으로 글로 옮겨 주는 것입니다.

키보드 입력보다 말이 빠르고 편한 상황이 많아, 스마트폰 음성 입력, 회의록 자동 작성, 영상 자막 생성, 콜센터 상담 기록 분석 등에 널리 쓰입니다. 딥러닝 도입 이후 인식 정확도가 크게 올라 일상 서비스 수준에 도달했고, LLM과 결합해 받아 적은 내용을 요약, 정리까지 해 주는 서비스로 발전하고 있습니다.

다만 소음이 많은 환경, 여러 사람이 겹쳐 말하는 상황, 사투리나 전문 용어에서는 오인식이 늘어나므로, 중요한 기록은 사람의 확인을 거치는 것이 안전합니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기