용어집 · 용어

STT

다른 표기: 음성 인식, speech to text

말을 글로 받아 적는 기술입니다. 회의록 자동 작성과 자막 생성에 쓰입니다.

STT(Speech to Text)는 사람의 음성을 인식해 문자로 변환하는 기술로, 음성 인식이라고도 부릅니다. 회의 자리에서 오가는 대화를 속기사가 받아 적듯, AI가 말소리를 듣고 실시간으로 글로 옮겨 주는 것입니다.

키보드 입력보다 말이 빠르고 편한 상황이 많아, 스마트폰 음성 입력, 회의록 자동 작성, 영상 자막 생성, 콜센터 상담 기록 분석 등에 널리 쓰입니다. 딥러닝 도입 이후 인식 정확도가 크게 올라 일상 서비스 수준에 도달했고, LLM과 결합해 받아 적은 내용을 요약, 정리까지 해 주는 서비스로 발전하고 있습니다.

다만 소음이 많은 환경, 여러 사람이 겹쳐 말하는 상황, 사투리나 전문 용어에서는 오인식이 늘어나므로, 중요한 기록은 사람의 확인을 거치는 것이 안전합니다.

✅ 왜 중요한가 · 장점

회의록, 자막, 통화 기록 등 받아 적는 업무를 자동화합니다
키보드보다 빠른 음성 입력으로 접근성과 편의성을 높입니다
LLM과 결합하면 녹취에서 요약, 할 일 정리까지 이어집니다

⚠️ 한계 · 논쟁

소음, 겹치는 발화, 사투리, 전문 용어에서 오인식이 발생합니다
화자 구분이 완벽하지 않아 회의록 정확도에 한계가 있습니다
음성 데이터 수집과 처리 과정에서 프라이버시 문제가 따릅니다