무한 세계 1000프레임 기억을 위한 포즈프리 계층 메모리
초록
Infinite‑World는 실제 영상에서 추정된 불완전한 카메라 포즈와 드문 재방문 문제를 극복하기 위해, 계층적 포즈프리 메모리 압축기(HPMC)와 불확실성 기반 행동 라벨링을 결합한 인터랙티브 월드 모델이다. HPMC는 과거 잠재 표현을 재귀적으로 압축해 고정된 메모리 예산 안에서 1000프레임 이상의 장기 일관성을 유지하고, 행동 라벨링은 연속 움직임을 ‘무동작·확정동작·불확실’ 삼중 상태로 변환해 노이즈에 강인한 제어 학습을 가능하게 한다. 30분 분량의 재방문‑밀집 데이터로 파인튜닝한 결과, 시각 품질, 행동 제어 정확도, 공간 일관성 모두 기존 방법을 크게 앞선다.
상세 분석
본 논문은 실세계 비디오에서 세계 모델을 학습할 때 직면하는 세 가지 핵심 난제—포즈 추정 오류, 재방문 데이터 부족, 그리고 O(L²) 복잡도의 메모리 병목—를 동시에 해결하는 통합 프레임워크를 제시한다. 핵심 기법인 Hierarchical Pose‑free Memory Compressor(HPMC)는 두 단계의 압축 파이프라인으로 구성된다. 첫 번째 ‘Local Compression’ 단계에서는 짧은 윈도우 내의 잠재(z) 시퀀스를 4배 다운샘플링하는 경량 인코더 fϕ를 적용해 세밀한 동적 정보를 보존한다. 두 번째 ‘Global Compression’ 단계에서는 슬라이딩 윈도우와 동적 스트라이드로 생성된 겹치는 청크들을 다시 fϕ에 통과시켜 전역 요약 토큰을 만든다. 이 과정을 재귀적으로 수행함으로써 입력 길이가 메모리 한계 T_max을 초과하더라도 최종 메모리 크기는 일정하게 유지된다. 중요한 점은 압축기 fϕ가 Diffusion Transformer(DiT)와 end‑to‑end 공동 최적화된다는 것이다. 즉, 압축 과정 자체가 미래 프레임 생성 손실을 최소화하도록 학습되므로, 모델은 장기 루프‑클로저에 필요한 핵심 장면 특징을 자동으로 선택한다. 이 접근법은 기존의 포즈 기반 컨텍스트 필터링(예: FO‑V, 3D 재구성)이나 단순 다운샘플링 방식과 달리, 외부 기하학적 라벨에 전적으로 의존하지 않으며, 노이즈가 심한 실제 영상에서도 공간 일관성을 유지한다.
두 번째 기여인 Uncertainty‑aware Action Labeling은 연속적인 6‑DoF 카메라 변화를 두 개의 스칼라(이동 크기와 회전 크기)로 분해하고, 두 개의 임계값 τ₁(노이즈 바닥)과 τ₂(동작 트리거)를 이용해 삼중 상태를 정의한다. ∥ΔP∥ < τ₁이면 ‘No‑operation’, ∥ΔP∥ > τ₂이면 ‘Discrete Action’, 그 사이이면 ‘Uncertain’로 라벨링한다. ‘Uncertain’ 상태를 명시적으로 보존함으로써 데이터 손실을 최소화하고, 학습 시 행동 레이블이 잡음에 의해 오염되는 것을 방지한다. 이 로직은 행동 공간을 이산화하면서도 실제 영상의 저속·진동 움직임을 효과적으로 필터링한다.
마지막으로 저자들은 ‘Revisit‑Dense Finetuning’ 전략을 제안한다. 파일럿 실험에서 장기 메모리 활성화는 전체 데이터 양보다 재방문 밀도에 더 민감함을 발견하고, 30분 분량의 고밀도 재방문 데이터셋(RDD)을 구축해 모델을 파인튜닝한다. 이 단계에서 HPMC는 기존 학습 단계에서 축적된 압축 토큰을 재활용하고, 루프‑클로저 능력을 급격히 향상시킨다.
실험 결과는 객관적 지표(FVD, CLIP‑Score 등)와 사용자 평가 모두에서 기존 최첨단 모델(예: Genie‑3, RELIC)보다 월등히 높은 점수를 기록한다. 특히 1000프레임 이후에도 장면 구조(창문·책상 배치 등)가 유지되고, 키보드 입력에 대한 시각적 반응이 정확히 일치한다는 점에서 장기 일관성 및 행동 제어 정확도가 크게 개선되었다.
요약하면, 이 논문은 (1) 메모리 비용을 고정하면서도 장기 컨텍스트를 보존하는 계층적 압축기, (2) 노이즈에 강인한 행동 라벨링, (3) 재방문‑밀집 파인튜닝이라는 세 축을 통해 실세계 인터랙티브 월드 모델의 현실 격차를 효과적으로 메운다. 향후 연구는 압축기 구조를 더욱 경량화하거나, 멀티‑모달(오디오·텍스트) 신호와 결합하는 방향으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기