3D 장면 프롬프트를 활용한 장면 일관 카메라 제어 비디오 생성

3D 장면 프롬프트를 활용한 장면 일관 카메라 제어 비디오 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

3DScenePrompt는 임의 길이의 입력 영상을 활용해 다음 영상 청크를 생성하면서, 사용자가 지정한 카메라 궤적을 정확히 따르고 정적 장면의 일관성을 유지하는 프레임워크이다. 시간적으로 인접한 프레임을 이용해 동작 연속성을 확보하고, 동적 SLAM과 동적 마스킹을 통해 추출한 정적 3D 포인트 클라우드를 투영해 공간적 프롬프트를 제공한다. 이를 통해 장거리 시점 이동에서도 정적 구조는 유지하고, 움직이는 객체는 최신 프레임의 동적 정보를 기반으로 자연스럽게 진화한다. 실험 결과 기존 방법 대비 장면 일관성, 카메라 제어 정확도, 영상 품질 모두에서 우수함을 보였다.

상세 분석

본 논문은 “장면‑일관 카메라‑제어 비디오 생성”이라는 새로운 문제 정의에서 출발한다. 기존의 카메라‑제어 비디오 생성 모델은 단일 이미지 혹은 짧은 클립을 조건으로 삼아, 지정된 카메라 궤적을 따르는 영상을 생성하지만, 입력 영상이 길어질 경우 장면 전체의 3D 구조 정보를 충분히 활용하지 못한다는 한계가 있다. 3DScenePrompt는 이러한 한계를 극복하기 위해 이중 시공간 조건화(dual spatio‑temporal conditioning) 를 도입한다.

  1. 시간적 조건화 – 최근 w 프레임을 입력으로 사용해 움직임 연속성을 보장한다. 이는 기존 video‑to‑future‑video 모델과 동일한 접근이다.

  2. 공간적 조건화 – 입력 영상 전체에서 정적 부분만을 추출해 3D 포인트 클라우드 형태의 장면 메모리를 만든다. 이를 위해 최신 동적 SLAM(D‑SLAM) 파이프라인을 활용하고, 새롭게 제안한 동적 마스킹 전략으로 움직이는 객체를 식별·제거한다. 정적 포인트 클라우드는 카메라 포즈와 연계되어, 사용자가 지정한 임의의 목표 시점에 투영될 수 있다. 이렇게 얻어진 기하학적으로 일관된 워프드 뷰는 공간 프롬프트로 작용해, 모델이 장면 구조를 정확히 인식하도록 돕는다.

동적 마스킹은 프레임‑별 옵티컬 플로우와 깊이 추정 결과를 결합해 움직임이 큰 영역을 마스크하고, 남은 포인트만을 정적으로 간주한다. 이 과정은 전체 프레임을 모두 처리하지 않고, SLAM이 제공하는 포즈와 포인트 클라우드 집계만을 사용함으로써 메모리·연산 비용을 크게 절감한다.

모델 아키텍처는 기존 텍스트‑투‑비디오 Diffusion 기반 U‑Net에 Spatial‑Prompt EncoderTemporal‑Prompt Encoder를 병렬로 연결한다. Spatial‑Prompt Encoder는 투영된 정적 포인트 클라우드와 카메라 포즈를 입력받아, 3D‑aware feature map을 생성한다. Temporal‑Prompt Encoder는 최근 w 프레임을 시퀀스 형태로 인코딩한다. 두 인코더의 출력은 Cross‑Attention을 통해 결합되며, 최종 디코더는 이를 바탕으로 미래 프레임을 샘플링한다.

실험에서는 다양한 복합 장면(정적 배경 + 움직이는 인물/차량)과 복잡한 카메라 궤적(루프, 급격한 회전, 확대/축소)을 사용해 기존 CameraCtrl, VD3D, Cosmos‑predict2, DFoT 등과 비교하였다. 정량적 지표로는 PSNR/SSIM, LPIPS, Camera Pose Error, 그리고 Scene Consistency Score(정적 포인트와 생성 프레임 간 거리)를 제시했으며, 모든 항목에서 10 % 이상 향상된 결과를 보였다. 특히 카메라 궤적이 이전에 보았던 시점으로 돌아올 때, 정적 구조가 정확히 재현되는 점이 두드러졌다.

한계점으로는 동적 마스킹이 완벽하지 않아 빠르게 움직이는 물체가 정적으로 오인될 가능성이 있으며, SLAM 실패 시(조명 변화, 텍스처 부족) 정적 메모리 품질이 저하될 수 있다. 향후 연구에서는 신경망 기반 동적‑정적 분리멀티‑뷰 합성을 결합해 이러한 문제를 보완하고, 실시간 인터랙티브 응용을 목표로 할 예정이다.


댓글 및 학술 토론

Loading comments...

의견 남기기