AI 기초 · 3편

생성형 AI 총정리 — 텍스트·이미지·영상·음성, 뭐가 있고 뭘 쓰나

2026. 5. 18. · AI 노트랩

"AI로 그림도 그리고 영상도 만든다던데, 대체 뭘 어디서 쓰는 건가요?" — 주변에서 가장 많이 받는 질문입니다. 이번 글에서는 생성형 AI를 만들어내는 콘텐츠 종류별로 나눠 전체 지도를 그려봅니다. 각 분야의 대표 서비스도 함께 정리했습니다.

① 텍스트 생성 — 가장 넓게 쓰이는 분야

글을 쓰고, 요약하고, 번역하고, 코딩까지 하는 분야입니다. 흔히 "AI 챗봇"이라 부르는 것들이 여기에 속합니다.

서비스	만든 곳	특징
ChatGPT	OpenAI	가장 유명하고 사용자층이 넓음. 기능 다양
Claude	Anthropic	긴 문서 처리와 자연스러운 글쓰기에 강점
Gemini	Google	구글 검색·Gmail·문서와의 연동이 강점

활용 예: 이메일 초안, 보고서 요약, 외국어 번역, 블로그 글 개요 잡기, 코드 작성. 사무직이라면 체감 효과가 가장 큰 분야입니다.

② 이미지 생성 — 문장으로 그림 그리기

"노을 지는 바닷가를 걷는 고양이, 수채화 스타일"처럼 문장(프롬프트)을 입력하면 그림을 만들어줍니다.

Midjourney — 예술적 완성도가 높아 디자이너들이 애용
DALL·E — ChatGPT 안에서 바로 쓸 수 있어 진입장벽이 낮음
Stable Diffusion — 오픈소스. 내 컴퓨터에 설치해 무료로 사용 가능

활용 예: 블로그 삽화, 발표자료 이미지, 시안 스케치, 로고 아이디어. 상업적 사용 시에는 각 서비스의 라이선스 정책을 꼭 확인해야 합니다.

③ 영상 생성 — 가장 빠르게 발전 중

문장이나 이미지를 넣으면 짧은 영상을 만들어주는 분야로, 최근 1~2년 사이 발전 속도가 가장 가파릅니다. OpenAI의 Sora, Google의 Veo, Runway 등이 대표적입니다. 아직은 긴 영상보다 수 초~수십 초짜리 클립 제작에 적합하며, 광고·뮤직비디오·시제품 영상에서 실제 활용이 시작됐습니다.

④ 음성·음악 생성

음성 합성(TTS) — 글을 자연스러운 목소리로 읽어줍니다. 내 목소리를 학습시켜 복제하는 것도 가능해졌습니다. (ElevenLabs 등)
음악 생성 — "잔잔한 로파이 힙합, 공부할 때 듣기 좋은"이라고 쓰면 곡을 만들어줍니다. (Suno, Udio 등)

활용 예: 유튜브 내레이션, 팟캐스트, 배경음악. 다만 목소리 복제는 악용(보이스피싱 등) 우려가 있어 각국에서 규제 논의가 활발합니다.

⑤ 코드 생성 — 개발자의 새 동료

프로그래밍 코드를 작성·수정·설명해 주는 분야입니다. GitHub Copilot, Claude Code, Cursor 같은 도구가 대표적이며, "코딩을 몰라도 말로 설명하면 앱을 만들어주는" 수준까지 발전하고 있습니다. 요즘은 이를 바이브 코딩(vibe coding)이라고 부르기도 합니다.

뭐부터 써볼지 모르겠다면: ① 텍스트(ChatGPT/Claude 무료 버전) → ② 이미지(ChatGPT 안의 DALL·E) 순서를 추천합니다. 계정 하나로 두 분야를 경험할 수 있습니다.

오늘의 정리

생성형 AI는 만드는 콘텐츠에 따라 텍스트·이미지·영상·음성·코드로 나뉜다.
텍스트 분야(ChatGPT, Claude, Gemini)가 가장 성숙하고 활용 폭이 넓다.
상업적 사용 전에는 반드시 각 서비스의 라이선스를 확인하자.

다음 편에서는 어떤 생성형 AI를 쓰든 결과물의 품질을 좌우하는 기술, 프롬프트 작성법을 다룹니다.