실제 거리 이미지 기반 AI 영상 생성 시스템 Map2Video
초록
Map2Video는 OpenStreetMap과 Mapillary의 거리 뷰 이미지를 활용해 실제 지리적 배경에 맞는 AI 영상을 생성하는 인터페이스이다. 사용자는 지도에서 위치를 선택하고, 배우와 카메라를 배치·경로를 스케치한 뒤 텍스트 프롬프트를 입력하면, VACE 모델이 공간적 일관성을 유지한 영상을 자동으로 합성한다. 12명의 영화인 대상 평가에서 기존 이미지‑투‑비디오 방식보다 높은 공간 정확도와 낮은 인지 부하를 보였다.
상세 분석
Map2Video는 기존 텍스트‑투‑비디오·이미지‑투‑비디오 모델이 겪는 ‘시각·공간 불일치’ 문제를 근본적으로 해결하고자 거리 뷰 이미지(Street View Imagery, SVI)를 장면의 공간적 기준으로 삼는다. SVI는 전 세계에 걸친 고해상도 지상 사진과 좌표 정보를 제공하므로, 배경과 카메라 움직임을 동일한 좌표계에 고정할 수 있다. 시스템은 크게 여섯 단계의 인터랙션 흐름을 제공한다.
1️⃣ Location Scouting – OpenStreetMap 기반 지도 위에서 원하는 위치를 클릭하면 Mapillary API가 해당 지점의 파노라마 이미지를 불러온다. 사용자는 지도와 3D 뷰를 전환하며 배경을 직관적으로 탐색한다.
2️⃣ Mask Positioning – 화면에 녹색 박스(마스크)를 배치해 배우·소품이 들어갈 영역을 지정한다. 마스크는 3D 공간에 고정되며, 이후 VACE 모델이 해당 영역만을 인페인팅하도록 제어한다.
3️⃣ Movement Sketching – 지도 위에 선을 그려 배우·소품의 이동 경로를 정의한다. 경로는 시간 축에 매핑되어 프레임마다 마스크 위치가 자동 업데이트되며, 카메라 뷰에서도 실시간으로 움직임을 확인할 수 있다.
4️⃣ Camera Walkthrough – 사용자는 Unity 기반 뷰포트에서 카메라 위치·회전·줌을 직접 조작한다. 이 단계에서 카메라 경로가 최종 영상의 프레이밍을 결정하므로, 전통적인 ‘카메라 워크스루’와 동일한 작업 흐름을 제공한다.
5️⃣ Prompting Scene – 텍스트 프롬프트를 통해 등장인물의 외모·복장·행동을 상세히 기술한다. 프롬프트는 VACE 모델에 전달되어 마스크 영역에 대한 내용 생성에 활용된다.
6️⃣ Video In‑painting – Unity와 ComfyUI를 연동해 VACE 모델이 마스크와 프롬프트, 카메라 파라미터를 입력받아 프레임별 영상을 합성한다. 모델은 기존 배경을 그대로 유지하면서 마스크 영역만을 동적으로 채워 일관된 시각적 흐름을 만든다.
기술적으로는 Unity가 3D 씬 관리·카메라 제어를 담당하고, ComfyUI가 VACE 모델의 파이프라인을 감싸 사용자 입력을 매핑한다. OpenStreetMap은 지도 좌표와 거리 뷰 이미지 메타데이터를 제공하고, Mapillary는 실제 사진을 API로 공급한다.
평가에서는 12명의 전문 영화인을 두 가지 과제(기존 영화 씬 복제, 자유 창작)에서 사용하게 하였다. 복제 과제에서는 평균 1.2배 적은 파인‑튜닝 반복 횟수와 4.3점(5점 만점) 높은 공간 정확도 점수를 기록했으며, 베이스라인 이미지‑투‑비디오 모델 대비 인지 부하가 유의미하게 낮았다(NASA‑TLX 평균 22% 감소). 자유 창작 과제에서는 사용성 설문(UEQ)에서 ‘효율성’·‘자율성’ 항목이 모두 0.8 이상 높은 점수를 받았다.
핵심 인사이트는(1) 실제 지리 정보를 활용하면 배경 일관성을 자동으로 보장할 수 있다, (2) 지도·스케치·프롬프트의 멀티모달 입력이 영화인에게 친숙한 작업 흐름을 제공해 인지 부하를 크게 감소시킨다, (3) 모델 수준에서 일관성을 강제하기보다 인터페이스 차원에서 제어하는 것이 실용적이라는 점이다. 한계점으로는 현재 SVI가 제공되지 않는 지역에서는 사용이 제한되고, 마스크 기반 인페인팅이 복잡한 동적 조명 변화나 대규모 인물군을 다루기엔 아직 부족하다는 점을 들 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기