용어집 · 용어

멀티모달

다른 표기: multimodal

텍스트뿐 아니라 이미지, 음성, 영상 등 여러 형태의 입력을 함께 이해하고 다루는 AI를 말합니다.

멀티모달은 글자만 다루던 AI를 넘어, 이미지, 음성, 영상 같은 여러 형태(모달리티)의 정보를 함께 이해하고 만들어내는 AI를 뜻합니다. 사람이 눈으로 보고 귀로 들으며 대화하듯, 냉장고 속 사진을 보여주면 재료를 알아보고 요리법을 제안하는 식입니다.

현실의 정보 대부분은 텍스트가 아니기 때문에, AI가 실제 업무와 일상에서 쓸모 있으려면 멀티모달 능력이 필수입니다. 사진 속 문서 정리, 음성 대화, 영상 분석 등으로 활용 범위가 빠르게 넓어지고 있으며, 주요 AI 모델 대부분이 멀티모달을 기본으로 지원하는 추세입니다.

다만 이미지를 입력받는다고 해서 사람처럼 완벽히 보는 것은 아닙니다. 세밀한 숫자 읽기나 물체 위치 파악에서 틀리는 경우가 있어, 중요한 판단에는 검증이 필요합니다.

✅ 왜 중요한가 · 장점

사진, 음성 등 실생활 데이터를 그대로 다룰 수 있어 활용 폭이 넓습니다
문서 사진 정리, 음성 비서, 영상 분석 등 새로운 서비스를 가능하게 합니다
텍스트와 이미지를 함께 보면 맥락 파악이 더 정확해집니다

⚠️ 한계 · 논쟁

이미지 속 세밀한 정보를 잘못 읽는 등 인식 오류가 여전히 있습니다
텍스트보다 처리 비용이 크고 속도가 느린 경우가 많습니다
이미지에 숨긴 지시문 등 새로운 유형의 보안 공격 통로가 될 수 있습니다