용어집 · 용어

멀티모달

다른 표기: multimodal

텍스트뿐 아니라 이미지, 음성, 영상 등 여러 형태의 입력을 함께 이해하고 다루는 AI를 말합니다.

멀티모달은 글자만 다루던 AI를 넘어, 이미지, 음성, 영상 같은 여러 형태(모달리티)의 정보를 함께 이해하고 만들어내는 AI를 뜻합니다. 사람이 눈으로 보고 귀로 들으며 대화하듯, 냉장고 속 사진을 보여주면 재료를 알아보고 요리법을 제안하는 식입니다.

현실의 정보 대부분은 텍스트가 아니기 때문에, AI가 실제 업무와 일상에서 쓸모 있으려면 멀티모달 능력이 필수입니다. 사진 속 문서 정리, 음성 대화, 영상 분석 등으로 활용 범위가 빠르게 넓어지고 있으며, 주요 AI 모델 대부분이 멀티모달을 기본으로 지원하는 추세입니다.

다만 이미지를 입력받는다고 해서 사람처럼 완벽히 보는 것은 아닙니다. 세밀한 숫자 읽기나 물체 위치 파악에서 틀리는 경우가 있어, 중요한 판단에는 검증이 필요합니다.

✅ 왜 중요한가 · 장점

⚠️ 한계 · 논쟁

← 용어집 전체 보기