ShotDirector: 영화 같은 샷 전환을 제어하는 멀티샷 비디오 생성 프레임워크

ShotDirector: 영화 같은 샷 전환을 제어하는 멀티샷 비디오 생성 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ShotDirector는 6자유도 카메라 파라미터와 계층적 편집‑패턴 프롬프트를 결합해, 전문적인 영화 편집 규칙을 따르는 멀티샷 비디오를 자동으로 생성한다. 이를 위해 촬영 각도·위치·초점 등을 정밀히 제어하는 카메라 제어 모듈과, 샷별·전체 맥락을 구분해 토큰 가시성을 조절하는 샷‑어웨어 마스크를 도입한다. 또한 영화 편집 패턴을 담은 대규모 데이터셋 ShotWeaver40K와 전용 평가 지표를 구축해, 시각적 품질·일관성·전환 제어성을 종합적으로 검증한다.

상세 분석

ShotDirector는 기존 멀티샷 비디오 생성 모델이 갖는 “시각적 일관성만을 추구하고 전환 디자인을 무시한다”는 한계를 근본적으로 재설계한다. 첫 번째 핵심은 6‑DoF(자유도) 카메라 파라미터와 내부(intrinsic) 설정을 직접 모델에 주입하는 카메라 제어 모듈이다. 저자들은 Plücker 임베딩을 이용해 각 픽셀의 시선 레이를 수학적으로 표현하고, 이를 외부(extrinsic) 파라미터와 병렬 브랜치를 통해 결합한다. 이렇게 하면 샷 간의 뷰포인트 이동을 정밀히 제어하면서도, 불필요한 급격한 시점 변화를 억제해 자연스러운 전환을 만든다.

두 번째 혁신은 “샷‑어웨어 마스크” 메커니즘이다. 텍스트·비주얼 토큰을 전역(global)과 지역(local) 레벨로 구분하고, 마스크를 통해 각 샷에 필요한 정보만을 활성화한다. 전역 토큰에는 전체 스토리 라인·편집 패턴(예: cut‑in, cut‑out, shot/reverse‑shot, multi‑angle)과 카메라 설정이 포함되고, 지역 토큰은 개별 샷의 구체적 내용과 시각적 디테일을 담는다. 이 구조는 모델이 “전역적인 서사 흐름을 유지하면서도 샷별로 자유롭게 변형”할 수 있게 해, 기존의 평면 프롬프트가 초래하던 전환 불연속성을 크게 감소시킨다.

데이터 측면에서 저자들은 영화에서 실제 사용되는 편집 규칙을 반영한 ShotWeaver40K(40,000개 멀티샷 클립) 를 구축했다. 파이프라인은 (1) 원본 영화 영상에서 샷을 자동 분할, (2) 유사 샷을 재조합해 연속성을 확보, (3) 해상도·프레임레이트·미학 점수 등 품질 필터링, (4) 전환 논리(내용 변동 vs 공간·시간 연속성)를 검증하는 전이 품질 필터링, (5) GPT‑5‑mini 기반 계층적 캡션 생성 및 카메라 포즈 추정 단계로 이루어진다. 특히 각 샷마다 “전문가 수준의 편집 패턴 라벨”과 “카메라 파라미터”를 명시함으로써, 모델이 직접적인 감독 의도를 학습하도록 설계되었다.

학습 및 평가에서는 기존 메트릭(프레임‑레벨 PSNR, FVD 등) 외에 전환 제어성(정확도·정밀도), 스토리 일관성(텍스트‑비주얼 정합도), 그리고 시네마틱 품질(전문가 평가) 등을 포함한 종합 지표를 제시한다. 실험 결과, ShotDirector는 동일한 텍스트 프롬프트에 대해 원하는 전환 유형을 정확히 재현하고, 시각적 품질과 샷 간 일관성에서도 최신 엔드‑투‑엔드 멀티샷 모델을 능가한다. 특히 “cut‑in”·“cut‑out”·“shot/reverse‑shot”·“multi‑angle” 네 가지 전형적인 편집 패턴을 정밀히 제어할 수 있다는 점이 큰 강점으로 부각된다.

전반적으로 ShotDirector는 파라미터‑레벨 카메라 제어와 고수준 의미‑레벨 프롬프트를 통합한 새로운 패러다임을 제시한다. 이는 단순히 “시각적으로 매끄러운” 멀티샷을 넘어, 감독이 의도한 서사 리듬과 시각적 강조를 직접 코딩할 수 있는 “디렉터리얼 제어”를 가능하게 한다는 점에서 영상 생성 연구에 중요한 전환점이 될 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기