동적 영상 세계 모델을 위한 하이브리드 메모리
본 논문은 정적인 배경과는 달리 카메라 시야 밖으로 사라졌다가 다시 등장하는 동적 객체를 일관되게 유지하기 위한 ‘하이브리드 메모리’ 개념을 제시한다. 이를 검증하기 위해 59 000개 이상의 클립을 포함한 대규모 데이터셋 HM‑World를 구축하고, 메모리를 토큰화하고 시공간 관련성 기반으로 검색하는 HyDRA 아키텍처를 설계하였다. 실험 결과 HyDRA가 기존 최첨단 모델보다 동적 객체의 정체성·운동 연속성을 크게 향상시킴을 보인다.
저자: Kaijin Chen, Dingkang Liang, Xin Zhou
본 논문은 영상 세계 모델이 정적인 배경을 유지하는 데는 성공했지만, 동적인 객체가 카메라 시야 밖으로 사라졌다가 다시 등장할 때 일관성을 잃는 문제를 지적한다. 이를 해결하기 위해 ‘Hybrid Memory(하이브리드 메모리)’라는 개념을 도입한다. 하이브리드 메모리는 두 가지 역할을 동시에 수행한다. 첫째, 정적인 배경을 정확히 보관·재현하는 ‘정적 메모리’ 역할; 둘째, 동적인 객체의 외형과 움직임을 추적·예측하는 ‘동적 메모리’ 역할이다. 이러한 이중 요구사항은 (1) 카메라와 객체의 움직임을 공간적으로 분리하고, (2) 객체가 시야 밖에 있을 때도 물리적 궤적을 추론해야 하는 복합적인 인지 과제를 제시한다.
이를 검증하기 위해 저자들은 대규모 데이터셋 HM‑World를 구축한다. 데이터셋은 Unreal Engine 5 기반의 파이프라인으로, 17개의 서로 다른 스타일의 3D 장면, 49개의 인간·동물 객체, 10개의 사전 정의된 객체 궤적, 28개의 카메라 궤적을 조합해 59 225개의 고해상도 클립을 생성한다. 각 클립은 객체가 프레임을 벗어나고 다시 들어오는 ‘exit‑enter’ 이벤트를 포함하도록 설계되었으며, 프레임별 객체 3D 포즈와 카메라 위치, 이벤트 타임스탬프가 정밀히 라벨링되어 있다. 기존 데이터셋과 비교했을 때, HM‑World는 동적 객체와 복합 카메라 움직임을 동시에 제공함으로써 하이브리드 메모리 연구에 최적화된 벤치마크 역할을 한다.
제안된 메모리 아키텍처인 HyDRA(Hybrid Dynamic Retrieval Attention)는 세 단계로 구성된다. 첫째, 메모리 토크나이저가 비디오 라티스를 압축해 토큰 형태로 저장한다. 이 토큰은 정적 배경, 객체 외형, 움직임 히스토리 등 풍부한 정보를 담는다. 둘째, 동적 검색 어텐션 모듈은 현재 타임스텝의 쿼리와 과거 토큰 간의 시공간 관련성을 점수화한다. 여기서는 객체의 위치 변화, 속도, 카메라 변환 정보를 모두 고려해, 시야 밖에 있던 객체와 가장 연관성이 높은 토큰을 선택한다. 셋째, 선택된 토큰은 교차 어텐션을 통해 디퓨전 트랜스포머(DiT) 내부에 주입되어, 노이즈 라티스를 복원하면서 객체의 외형·운동을 자연스럽게 이어준다. 이 과정은 기존 메모리 압축 기법보다 적은 용량으로 중요한 동적 신호를 보존하고, 시점 전환 시 객체가 ‘얼어붙는’ 현상을 방지한다.
실험에서는 HyDRA를 HM‑World와 기존 공개 데이터셋에 적용해 다양한 지표를 측정했다. 정적 배경 일관성(PSNR, SSIM)에서는 기존 모델과 동등하거나 약간 우수했으며, 동적 객체 일관성(객체 재등장 정확도, 평균 절대 오류, 외형 왜곡률)에서는 평균 15 %~30 %의 향상을 보였다. 특히, ‘숨은 객체 재현’ 테스트에서 87 % 이상의 성공률을 기록, 인간 평가에서도 가장 자연스러운 움직임 연속성을 인정받았다. Ablation 연구에서는 토큰 압축 비율, 시공간 윈도우 크기, 카메라 인젝션 방식 등을 변형했을 때 성능이 감소함을 확인, 제안된 설계가 최적임을 입증했다.
논문의 주요 기여는 다음과 같다. (1) 정적·동적 메모리를 동시에 요구하는 하이브리드 메모리 개념을 정의하고, 그 필요성을 체계적으로 분석했다. (2) 59 K 클립, 17개 장면, 49개 객체, 다양한 궤적을 포함한 HM‑World 데이터셋을 공개해 연구 커뮤니티에 새로운 벤치마크를 제공했다. (3) 메모리 토크나이저와 시공간 관련성 기반 검색 어텐션을 결합한 HyDRA를 설계·제안해, 동적 객체의 일관성을 크게 향상시켰다. (4) 광범위한 정량·정성 평가와 Ablation을 통해 모델의 강점과 한계를 명확히 제시했다.
향후 연구 방향으로는 실제 촬영 영상에 대한 일반화 검증, 다중 객체가 겹치는 복잡한 장면에서의 토큰 충돌 해결, 그리고 실시간 응용(예: 로봇 내비게이션, 증강현실)으로의 경량화가 제시된다. 하이브리드 메모리와 HyDRA는 동적 세계를 보다 현실감 있게 시뮬레이션하려는 모든 영상 생성·예측 시스템에 핵심적인 기반 기술이 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기