ReRoPE 로테이션 포지셔널 임베딩을 활용한 상대 카메라 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ReRoPE는 사전 학습된 비디오 디퓨전 트랜스포머에 기존 RoPE의 저주파 대역을 재활용해 상대 카메라 포즈 정보를 삽입하는 플러그‑인 방식이다. 이를 통해 이미지‑투‑비디오와 비디오‑투‑비디오 작업 모두에서 카메라 움직임을 정확히 제어하면서 사전 학습된 생성 능력을 유지한다.

상세 분석

본 논문은 비디오 생성 모델에서 카메라 제어가 흔히 절대 좌표계(첫 프레임 기준) 기반으로 이루어져, 시프트 불변성이 결여되고 드리프트가 발생한다는 문제를 지적한다. 상대 카메라 포즈를 직접적인 상대 위치 인코딩으로 활용하면 이러한 한계를 극복할 수 있지만, 기존 방법들은 RoPE 구조를 크게 재구성하거나 전체 모델을 처음부터 학습해야 하는 비용이 크다. ReRoPE는 이러한 제약을 피하기 위해 RoPE가 실제로 사용하고 있는 주파수 대역을 분석한다. 실험 결과, 저주파 대역(높은 인덱스 f)은 시간 길이(≈50 프레임) 내에서 거의 변하지 않아 위치 구분에 거의 기여하지 않으며, 이는 “사용되지 않는” 공간으로 간주될 수 있다. 저자들은 이 저주파 채널을 선택적으로 차단하고, 대신 상대 카메라 변환 행렬을 동일한 차원에 삽입한다. 이렇게 하면 기존 고주파 RoPE는 시간·공간 순서를 유지하고, 저주파는 카메라 기하 정보를 전달한다. 중요한 점은 헤드 차원을 재분배하거나 추가적인 카메라 인코더, 회귀 헤드 등을 도입하지 않아도 된다는 것이다. 따라서 사전 학습된 비디오 디퓨전 트랜스포머(예: Wan2.1, CogVideoX 등)의 구조적 프라이어를 그대로 보존하면서도 카메라 제어 정확도를 크게 향상시킨다. 또한, 저주파 대역은 시간 차원에 주로 존재하고, 공간 차원에서는 고주파가 이미 충분히 활용되고 있기에, 저주파를 이용한 카메라 임베딩이 시각적 품질에 미치는 부정적 영향을 최소화한다. 실험에서는 I2V와 V2V 두 시나리오 모두에서 제어 오차가 크게 감소하고, FID·LPIPS 등 시각적 품질 지표에서도 기존 방법과 동등하거나 우수한 결과를 보인다. 이와 같이 ReRoPE는 “플러그‑인·저비용·고효율”이라는 세 축을 동시에 만족하는 새로운 상대 카메라 제어 패러다임을 제시한다.

ReRoPE 로테이션 포지셔널 임베딩을 활용한 상대 카메라 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기