스페이스타임 파일럿 공간과 시간을 자유롭게 조작하는 비디오 생성 모델

읽는 시간: 8 분
...

📝 원문 정보

- Title: SpaceTimePilot Generative Rendering of Dynamic Scenes Across Space and Time
- ArXiv ID: 2512.25075
- 발행일: 2025-12-31
- 저자: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang

📝 초록

본 논문은 단일 동영상에서 새로운 시점과 시간 조절을 가능하게 하는 첫 번째 비디오 확산 모델, SpaceTimePilot를 소개합니다. 이 모델은 공간적 시점을 조정하는 것과 더불어 시간을 자유롭게 조작할 수 있는 능력을 가지고 있습니다.

💡 논문 해설

1. **SpaceTimePilot**는 단일 동영상에서 새로운 시점 생성 및 시간 제어를 가능하게 하는 첫 번째 비디오 확산 모델입니다. 이 모델은 동영상을 보는 것이 마치 3D 영화의 여러 각도를 볼 수 있는 것과 같다는 메타포로 이해할 수 있습니다. 2. **시간 왜곡 훈련 방식**을 도입하여 기존 다중 시점 비디오 데이터셋에 다양한 시간 조건을 가미하였습니다. 이는 마치 동영상을 역방향으로 재생하거나 느리게 재생하는 것과 같은 효과를 얻기 위해 동영상의 각 프레임을 다르게 변형하는 과정입니다. 3. **Cam$`\times`$Time** 데이터셋은 카메라와 시간 조합에 대한 풍부한 정보를 제공하여 공간적 및 시간적 제어를 효과적으로 학습할 수 있게 합니다. 이는 마치 동영상의 각 프레임을 자유롭게 움직일 수 있는 레이저 포인터와 같다고 생각하면 됩니다.

📄 논문 발췌 (ArXiv Source)

# 소개

비디오는 진화하는 3D 세계의 2D 투영이며, 여기에는 카메라 시점과 동적 장면 움직임 같은 공간 및 시간 변화가 포함됩니다. 관찰된 비디오에서 이러한 요인들을 이해하고 분리하는 것은 장면 이해, 4D 재구성, 비디오 편집, 생성 렌더링 등 다양한 작업에 필수적입니다. 본 연구에서는 이 도전 과제를 생성 렌더링의 관점에서 접근합니다. 단일 동적 장면 비디오가 주어졌을 때, 우리의 목표는 원래 장면 동작에 충실하면서도 새로운 시점을 재구성하거나 시간상 다른 순간을 재생하는 것입니다.

통상적인 전략은 2D 관찰로부터 먼저 동적 3D 콘텐츠를 재구성하고, 즉 4D 재구성을 수행한 후 장면을 다시 렌더링하는 것입니다. 이러한 방법들은 NeRFs나 Dynamic Gaussian Splatting과 같은 표현을 사용하여 공간 및 시간 변화를 모델링하며, 기하학적 정보, 광류, 깊이, 또는 장기적인 2D 트랙 등의 단서에 의해 보조받습니다. 그러나 심지어 전체 4D 재구성을 수행한 경우에도 새로운 시점에서는 일반적으로 아티팩트가 나타납니다. 최근의 연구는 다중 시점 비디오 확산을 사용하여 희박한 시간 조건이 걸린 시점을 생성하고 Gaussian Splatting 최적화를 통해 이를 개선하지만, 렌더링 품질은 여전히 제한적입니다. 비디오 확산 모델의 발전은 더 가벼운 포인트 클라우드 표현을 사용하여 카메라 재위치가 가능하게 하여 4D 재구성을 필요로 하는 정도를 줄였습니다. 이러한 방법들은 정체성을 유지하는 데 효과적이지만, 프레임별 깊이와 재투영에 의존하기 때문에 큰 시점 변화 아래에서는 견고성이 제한됩니다. 이를 완화하기 위해 새로운 접근법은 생성을 단순히 카메라 매개변수에 조건부로만 설정하여 정적 및 동적 장면에서 강력한 새로운 시점 합성을 달성합니다. Genie-3와 같은 자동회귀 모델은 싱글 이미지로부터 상호작용적인 장면 탐색을 가능하게 하여 확산 모델이 암묵적으로 4D 선물을 인코딩할 수 있음을 보여줍니다. 그럼에도 불구하고 공간적 시점 제어에 대한 진전에도 불구하고, 현재 방법들은 여전히 완전한 4D 탐사를 놓치고 있습니다, 즉 장면을 자유롭게 시간과 공간 모두를 통해 탐색하는 능력을 갖추지 못하고 있는 것입니다.

/>
방법 간의 스페이스-타임 제어 가능성. 파란색 셀은 입력 비디오/시점을 나타내며, 화살표와 점들은 생성된 연속적인 비디오나 희박한 프레임을 나타냅니다. 카메라 제어 V2V 모델 은 카메라 궤도만 수정하며 시간을 엄격히 단조로운 상태로 유지합니다. 4D 다중 시점 모델 는 공간과 시간에 조건부인 이산적인 희박한 시점을 합성하지만 연속적인 비디오 시퀀스를 생성하지 않습니다. SpaceTimePilot은 카메라와 시간 축을 모두 자유롭게 이동할 수 있는 완전한 제어 기능을 제공하며, 뷔렛 타임, 느린 재생, 역 방송 및 혼합 스페이스-타임 궤도를 지원합니다.

본 연구에서는 첫 번째 공간적 시간적 제어가 가능한 비디오 확산 모델인 *SpaceTimePilot*을 소개합니다. SpaceTimePilot은 소스 비디오의 장면 동작의 시간 상태를 포착하기 위해 “애니메이션 시간"이라는 새로운 개념을 도입하였습니다. 이를 통해 시간 제어와 카메라 제어가 두 개의 독립적인 신호로 표현되어 자연스럽게 분리됩니다. 우리의 접근법과 이전 방법 사이의 고수준 비교는 Fig. 1에 설명되어 있습니다. 이전 방법들과 달리 SpaceTimePilot은 카메라와 시간 축을 모두 자유롭게 탐색할 수 있는 능력을 제공합니다.

이러한 모델을 학습하는 데는 여러 형태의 시간 재생산을 수행하면서 동시에 다양한 카메라 움직임 하에서 캡처되는 동영상이 필요하며, 이는 제어된 스튜디오 설정에서만 가능합니다. 실제 데이터셋들을 결합하여 시간 다양성을 증가시키는 방법은 여전히 부적절한데, 시간 변화의 커버리지가 충분하지 않아 시간 조작의 기본 의미를 학습하는 데에 제약이 있기 때문입니다. 기존의 인공 데이터셋도 이러한 특성들을 갖추고 있지 않습니다.

이 한계를 극복하기 위해 우리는 단순하면서 효과적인 시간 왜곡 훈련 방식을 도입하여 기존 다중 시점 비디오 데이터셋에 다양한 조건을 가미합니다. 이를 통해 모델은 추가적인 데이터 수집 없이도 시간상으로 다양한 행동에 노출됩니다. 이 간단하면서도 중요한 전략은 모델이 시간 제어 신호를 학습하여 생성 과정에서 공간-시간 분리 효과를 직접 나타낼 수 있게 합니다.

실험 결과는 SpaceTimePilot이 단일 동영상에서 생성 렌더링을 통해 공간과 시간을 성공적으로 분리하고, 적응된 최신 기준선보다 큰 마진으로 우수한 성능을 보여줍니다. 주요 기여는 다음과 같습니다:

  • SpaceTimePilot, 첫 번째로 공간적 및 시간적 요인을 분리하여 단일 동영상에서 연속적이며 제어 가능한 새로운 시점 합성과 시간 조절을 가능하게 하는 비디오 확산 모델입니다.

  • SpaceTimePilot은 기존의 다중 시점 데이터셋을 다양한 시간 변화를 시뮬레이션하기 위해 재활용하는 시간 왜곡 전략을 제안합니다. 이로 인해 모델은 명시적으로 구성된 다른 시간 설정에서 캡처된 비디오 쌍 없이도 효과적인 시간 제어 학습이 가능합니다.

  • SpaceTimePilot은 더 정확한 카메라-시간 조건부 메커니즘을 제안하여 시점과 시간 임베딩을 확산 모델에 공동으로 통합하여 미세한 공간-시간 제어를 달성합니다.

  • Cam$`\times`$Time 데이터셋은 카메라 궤적 및 움직임 시퀀스에 대한 동적 장면의 밀도 높은 스페이시오-시간 샘플링을 제공하여 분리된 4D 표현 학습과 생성 렌더링에서 정확한 카메라-시간 제어를 지원합니다.

관련 연구

우리는 새로운 시점으로 비디오를 재렌더링하고 시간을 조절하는 방법을 목표로 합니다. 이 작업은 단일 시점 비디오 입력에서 Novel View Synthesis (NVS)와 밀접하게 연결되어 있습니다.

비디오 기반 NVS

이전의 비디오 기반 NVS 방법은 두 축으로 크게 분류될 수 있습니다: (i) 정적 또는 동적인 장면을 대상으로 하는지, 그리고 (ii) 생성 파이프라인에 명시적인 3D 기하학을 포함하는지 여부입니다.

정적 장면에서는 기하학 기반 방법들이 입력 프레임에서 장면의 기하학을 재구성하고 확산 모델을 사용하여 새로운 시점에서 보이지 않는 지역을 완성하거나 가상화합니다. 이러한 접근법은 높은 렌더링 품질을 달성하지만, 중량적인 3D 전처리에 의존합니다. 기하학을 사용하지 않는 방법들은 명시적인 기하학을 피하고 관찰된 시점과 카메라 자세를 직접 조건부로 설정하여 새로운 시점을 합성합니다.

동적 장면에서는 TrajectoryCrafter, ReCapture 및 Reangle과 같은 채색기반 방법들이 warp-and-inpaint 파이프라인을 채택하고 있으며, GEN3C는 진화하는 3D 캐시를 추가하고 EPiC은 가벼운 ControlNet 프레임워크를 통해 효율성을 향상시킵니다. 기하학을 사용하지 않는 동적 모델들은 다중 시점 또는 4D 데이터셋(예: Kubric-4D)로부터 카메라 조건부 생성을 학습하며, 최소한의 3D 인덕티브 편향으로 부드럽고 안정적인 NVS를 가능하게 합니다. Genie 3와 같은 전문 시스템은 동적 장면에서 실시간, 연속적인 카메라 제어를 보여주며 비디오 확산 모델이 상호작용 가능한 시점 조작에 대한 잠재력을 강조합니다.

공간과 시간 분리

위의 방법들은 카메라 제어능력(공간)에서 큰 진전을 이루었지만, 시간 제어(시간)에는 주목하지 않았습니다. 반면, 4D 장면 생성에서는 공간적 및 시간적 요인을 분리하는 것이 중점이 되며, 이를 통해 확산 기반 모델들이 최근 발전하였습니다. 4DiM은 조건부 신호(예: 카메라 자세 또는 시간)가 없을 때 동일 변환으로 기본 설정되는 Masked FiLM 메커니즘을 도입하여 다중 모달 감독을 통해 정적 및 동적인 데이터에 대한 통합 표현을 가능하게 합니다. 유사하게, CAT4D는 4D 동적 재구성을 수행함으로써 공간-시간 분리를 달성하지만 명시적인 4D 재구성 파이프라인에 의존하기 때문에 확장성이 제한되어 있습니다. 대조적으로, 우리의 접근법은 텍스트에서 비디오로의 확산 모델을 기반으로 하며 새로운 시간 임베딩 모듈과 정교한 카메라 조건부를 도입하여 완전히 제어 가능한 4D 생성 재구성을 달성합니다.

방법

우리는 SpaceTimePilot을 소개합니다. 이 방법은 소스 비디오 $`V_{\text{src}}\in \mathbb{R}^{F\times C\times H\times W}`$를 입력으로 받아 목표 비디오 $`V_{\text{trg}}\in \mathbb{R}^{F\times C\times H\times W}`$를 생성하며, 입력 카메라 궤도 $`\mathbf{c}_{\text{trg}}\in \mathbb{R}^{F\times 3 \times 4}`$와 시간 제어 신호 $`\mathbf{t}_{\text{trg}} \in \mathbb{R}^{F}`$를 따릅니다. 여기서, $`F`$는 프레임 수를 나타내고, $`C`$는 색상 채널 수이고, $`H`$와 $`W`$는 각각 프레임의 높이와 너비를 의미합니다. 각 $`\mathbf{c}_{\text{trg}}^{f} \in \mathbb{R}^{3 \times 4}`$는 $`V_{\text{src}}`$의 첫 번째 프레임에 대한 프레임 $`f`$의 카메라 외부 매개변수(회전과 이동)를 나타냅니다. 목표 비디오 $`V_{\text{trg}}`$는 $`V_{\text{src}}`$에서 장면의 기본 동작, 기하학 및 모양을 유지하면서 $`\mathbf{c}_{\text{trg}}`$와 $`\mathbf{t}_{\text{trg}}`$에 의해 지정된 카메라 움직임과 시간 진행을 따릅니다. 우리의 방법의 핵심 기능은 생성 과정에서 공간적 및 시간적 요인의 분리로, 새로운 시점에서 뷔렛 타임 또는 재생 조절 효과를 가능하게 합니다 (참조: [fig:teaser]).

사전 준비

우리의 프레임워크는 대규모 텍스트에서 비디오로의 확산 모델과 카메라 조건부 비디오 생성에 대한 최근 진보를 기반으로 합니다. 우리는 현대적인 텍스트에서 비디오로의 기초 모델과 유사한 라텍트 비디오 확산 백본을 채택합니다. 이를 위해 3D 변이형 오토인코더(VAE)를 사용하여 라텍트 압축하고 다중 모달 토큰에 대해 작동하는 Transformer 기반의 노이즈 제거 모델(DiT)을 도입합니다.

또한, 우리의 설계는 ReCamMaster에서 영감을 받았습니다. 이 방법은 비디오 합성에 대한 명시적인 카메라 조건부를 소개하였습니다. 입력 카메라 궤도 $`\mathbf{c}\in \mathbb{R}^{F\times 3 \times 4}`$가 주어졌을 때, 공간적 조건부는 먼저 카메라 시퀀스를 비디오 토큰의 공간으로 프로젝트한 다음 이를 특징에 더합니다:

MATH
\begin{equation}
x' = x + \mathcal{E}_\text{cam}\left(\mathbf{c}\right),
\label{eq:camera-condition}
\end{equation}
클릭하여 더 보기

여기서 $`x`$는 패치 모듈의 출력이고, $`x'`$는 자기 주의 층에 대한 입력입니다. 카메라 인코더 $`\mathcal{E}_\text{cam}`$은 각 평탄화된 $`3 \times 4`$ 카메라 행렬(12차원)을 대상 특징 공간으로 매핑하며, 시간 차원도 $`F`$에서 $`F'`$로 변환합니다.

공간과 시간 분리

우리는 전문적인 시간 표현과 특화된 데이터셋을 통해 공간적 및 시간적 요인의 분리를 달성합니다.

시간 표현

최근의 비디오 확산 모델에는 잠재 프레임 인덱스 $`f'`$에 대한 위치 임베딩(RoPE($`f'`$))이 포함되어 있습니다. 그러나 RoPE($`f'`$)를 시간 제어에 사용하는 것은 효과적이지 않았습니다. 이는 카메라 신호와 동시에 시간과 카메라 움직임을 모두 제한하기 때문입니다. 공간 및 시간 분리를 위해, 우리는 전문적인 시간 제어 매개변수 $`\mathbf{t}\in \mathbb{R}^F`$를 도입합니다. $`\mathbf{t}_\text{trg}`$를 조작함으로써 합성된 비디오 $`V_{\text{trg}}`$의 시간 진행을 제어할 수 있습니다. 예를 들어, $`\mathbf{t}_\text{trg}`$를 일정하게 설정하면 $`V_{\text{trg}}`$가 $`V_{\text{src}}`$의 특정 시점에 고정되고, 프레임 인덱스를 반전시키면 $`V_{\text{src}}`$가 역방향으로 재생됩니다.

/>
시간 왜곡을 통한 스페이시오-시간 분리. (위쪽) 다중 시점 동적 장면 데이터셋에 대해 역 방송, 킥잭 움직임, 느린 재생, 정지 등 일련의 시간 왜곡 연산이 적용되며, 소스 비디오는 표준으로 유지되어 명시적인 시간 제어 감독을 제공합니다. (아래쪽) 기존 카메라 제어 및 결합 데이터셋 훈련 전략과 비교하여 단조로운 시간 진행과 정적 장면 비디오를 사용하는 것만으로는 모델이 시간 변동성을 이해하기 어렵습니다. 다중 시점 비디오 데이터로부터 도입된 시간 매핑은 공간과 시간을 분리하는데 더 다양한 신호를 제공합니다.

(위쪽) 다중 시점 동적 장면 데이터셋에 대해 역 방송, 킥잭 움직임, 느린 재생 및 정지와 같은 일련의 시간 왜곡 연산이 적용되며 소스 비디오를 표준으로 유지하여 명시적인 시간 제어 감독을 제공합니다. (아래쪽) 기존 카메라 제어 및 결합 데이터셋 훈련 전략은 단조로운 시간 진행과 정적 장면 비디오만 사용하기 때문에 모델이 시간 변동성을 이해하는 것이 어렵습니다. 다중 시점 비디오 데이터로부터 도입된 시간 매핑은 공간과 시간을 분리하는데 더 다양한 신호를 제공합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키