AI 영상 제작의 현실: PD가 직접 부딪힌 VEO의 가능성과 명확한 한계
- Soomin Kim
- Jun 30
- 3 min read
나는 현재 aiwithsoomin 블로그를 운영하며, AI 툴이 정말 현업에 활용 가능한지 마이크로하게 테스팅하고 있다. 이번 기록은 영상 생성 툴, 특히 Google의 Veo를 사용하며 느낀 솔직한 경험이다.
AI 영상 생성 툴의 장점은 이미 너무 많이 언급됐다. 상상한 것을 빠르게 만들어준다는 것, 이 퀄리티의 영상을 생각지도 못한 효과를 넣어가며 이제는 싱크가 맞는 오디오까지 가능하다니. 분명 혁신적이다. 하지만 이 글에서는, 그 이면에 있는 제작자로서의 현실적인 한계에 대해 더 집중적으로 이야기하고자 한다.
1. 프롬프트: 똑똑하게 지시할수록 AI는 체한다
가장 먼저 부딪힌 것은 프롬프트의 한계였다.
GPT나 Gemini를 사용해 프롬프트를 짜면, 내가 생각 못 한 전문 용어(Dolly zoom, Rim light 등)를 써가며 씬을 풍부하게 묘사해줘서 결과물의 기대치를 높인다. 하지만 PD로서의 디테일 욕심이 과해지는 순간, VEO는 그대로 체해버린다.
"주인공이 이 대사를 하면서, 동시에 방 안의 색감이 바뀌고, 카메라는 특정 오브제로 트랜지션 해달라"는 식의 복합적인 디렉션을 하나의 프롬프트에 담으면 씬 자체가 생성되지 않거나, 엉뚱한 결과물을 뱉어낸다. 아직 AI는 다층적인 연출 의도를 한 번에 이해하지 못한다.
아이러니하게도, 오히려 디렉션을 단순화하고 소위 '뇌 빼고 믿고 맡기는 것'이 결과물의 퀄리티를 높이는 방법이다. 특히나, VEO3는 한 번 오류가 나면 8000원을 날리는 꼴, 적당히 욕심내는 것이 낫다. 다음은 실패한 예시들이다.
2. 업계의 공통 과제: 결국 모두 같은 고민을 하고 있다
이것은 나만의 고민이 아니다. 내가 속해있는 AI 영상 제작 크루들의 단톡방(2025.06.30 현 시점 1054명)에서 매일같이 나오는 이야기는, 결국 이 세 가지 주제로 수렴한다. 이것은 현재 AI 영상 제작의 현주소이자, 모두가 간절하게 해결되길 바라는 성배이다.
과제 1: 화질 보완 (The Dilemma of Detail vs. Resolution)
현재 대부분의 AI 툴은 1920*1080 해상도를 기본으로 영상을 생성한다. 하지만 광고나 영화 같은 상업 영상 시장에서 이 해상도는 명백히 아쉬운 수준이다. 그래서 자연스럽게 업스케일링을 시도하게 되는데, 여기서 딜레마가 발생한다.
업스케일링 과정에서 AI 특유의 과도하게 매끈한, 소위 '플라스틱 질감'이 살아나면서 정작 중요했던 디테일이 뭉개지는 것이다. 결국 제작자는 선택의 기로에 놓인다. "AI가 기가 막히게 표현한 가죽 자켓의 질감을 살릴 것인가, 아니면 4K 화질을 얻을 것인가?"
현재로서는, 대부분의 PD들이 후자를 포기하고 전자를 택한다. 'AI인 것을 덜 티 내는 것'이 아직은 더 중요하기 때문이다.
과제 2: 캐릭터 일관성 (The Art of Deception)
한창 GPT로 전 세계가 지브리풍 이미지를 생성할 때, 우리는 모두 경험했다. "모퉁이의 저 디테일만 지워줘"라고 했을 뿐인데, 완전히 다른 캐릭터를 뱉어내던 그 순간을 말이다.
물론 Veo, 미드저니 등 고도화된 툴에서는 참고 이미지를 삽입하거나, 이전 컷을 다음 씬의 시작점으로 지정하면서 캐릭터 일관성이 비약적으로 발전했다. 하지만 여전히 프레임 단위로 영상을 뜯어보면, 얼굴이 미세하게 변하는 '모핑 현상'은 완벽히 해결되지 않았다.
그래서 현재 PD들이 쓰는 최선의 방법은 '꼼수'에 가깝다. 일관된 캐릭터 묘사 프롬프트를 고정값으로 사용하면서, 의도적으로 빠른 컷 전환을 쓰거나 시청자의 시선을 다른 소품으로 돌려서 일관성이 유지되는 것처럼 '속이는' 연출을 구사하는 것이다. 이것이 현재 업계의 생존 전략이다.
과제 3: 올인원(All-in-One) 툴의 부재 (The Fragmented Workflow)
AI 영상부터, 효과, 오디오 생성, 번역까지. 이 모든 것을 하나의 인터페이스에서 끝내고 싶다는 갈증은 모든 제작자의 공통된 외침이다. 워크플로우가 파편화될수록 제작의 마찰은 커지고, 결국 '그냥 원래 하던 대로 하고 싶다'는 마음이 들게 한다. 결국 이 통합의 문제를 해결하는 플랫폼이 시장을 장악할 것이다.
결론: '통합'을 지향하지만 아직은 개별 개별 기능들. 따로 따로 써야하는 툴
따라서, 이 파편화된 워크플로우를 끝내고
진정한 '올인원(All-in-One)' 툴을 만들어내는 플랫폼이 이 시장의 다음 선두주자가 될 것임은 명백하다.
하지만 여기서 근본적인 질문이 생긴다. 이 모든 것을 하나의 인터페이스에서 가능하게 하려면,
도대체 얼마나 막대한 기술적 자원이 필요한 것일까?
Veo의 영상 생성 능력, ElevenLabs의 정교한 음성 합성, 미드저니의 미학적인 이미지 구현, 그리고 DeepL의 다국어 번역 및 맥락 이해 능력까지. 이 모든 것을 끊김 없이 통합하려면 상상을 초월하는 연산 능력(Computational Power)과, 각 모델이 서로 충돌하지 않게 조율하는 정교한 아키텍처(Architecture), 그리고 이 모든 것을 담아낼 수 있는 거대한 데이터셋이 필요할 것이다.
이 기술적 장벽을 넘어, 이 모든 것을 전문가가 쓰기에도 부족함이 없는 직관적인 인터페이스에 담아내는 데 성공하는 자. 그들이야말로 차세대 콘텐츠 제작의 '운영체제(OS)'를 만드는, 이 시장의 진정한 승자가 될 것이다. 승자가 누가될지는 모르지만, 간절하게 출시되길 희망하는 바이다.
![[Journal] Analyzing YouTube Videos? Forget GPT. Here’s Why Gemini Is the Only Answer.](https://static.wixstatic.com/media/6f9f08_a3862d99269342359ddc46ed010939b0~mv2.png/v1/fill/w_980,h_505,al_c,q_90,usm_0.66_1.00_0.01,enc_avif,quality_auto/6f9f08_a3862d99269342359ddc46ed010939b0~mv2.png)
Comments