다중시점 세계 모델로 보는 새로운 계획 방식
초록
본 논문은 단일 시점에 머무르는 기존 월드 모델의 한계를 극복하고, 서로 다른 시점 간 예측을 학습시키는 ‘Cross‑View World Models (XVWM)’을 제안한다. 에고(ego)와 bird’s‑eye view(BEV) 등 여러 카메라 시점을 동기화된 게임 데이터에 적용해, 하나의 입력 시점으로부터 다른 시점의 미래 프레임을 예측하도록 훈련한다. 이를 통해 시점 불변의 3D 구조 표현을 학습하고, 베드맵 기반 위치 추정 및 다중 시점 상상 스트림을 제공한다. 실험 결과, XVWM은 동일 시점 예측에서도 성능이 유지되며, 특히 BEV와 결합했을 때 인지 지도와 유사한 공간 정합성을 획득한다.
상세 분석
XVWM의 핵심 아이디어는 ‘교차‑시점 예측(cross‑view prediction)’이라는 자기지도 학습 목표이다. 입력으로 하나의 시점(예: 에고)에서 연속된 프레임과 행동 정보를 제공하고, 목표는 동일하거나 다른 시점(예: BEV, 오버‑숄더, 프론트)에서 미래 프레임을 생성하는 것이다. 이때 입력·출력 시점이 시각적으로 겹치지 않을 경우, 모델은 픽셀‑레벨 매칭에 의존할 수 없으므로 장면의 내재된 3D 구조를 추론해야 한다. 따라서 모델은 시점‑불변(view‑invariant) 표현을 학습하게 되며, 이는 기존 단일 시점 월드 모델이 암묵적으로 학습하는 3D 정보보다 더 강력한 기하학적 정규화 역할을 한다.
구현 측면에서 저자들은 NWM의 Conditional Diffusion Transformer(CDiT)를 기반으로, 각 시점을 고유하게 임베딩하는 ‘view embedding table’을 추가하였다. 이 임베딩은 기존의 시간·행동 임베딩과 합쳐져 트랜스포머 블록에 주입되며, 시점 정보를 명시적으로 전달한다. 학습 데이터는 Aimlabs 게임에서 4,186개의 1분 길이 에피소드를 60 FPS에서 5 FPS로 다운샘플링한 것으로, 네 가지 시점(에고, BEV, 오버‑숄더, 프론트)으로 동시에 촬영되었다.
실험은 세 가지 모델을 비교한다. (1) 단일 시점 에고만 사용한 베이스라인, (2) 에고와 BEV만을 교차 학습한 Two‑View XVWM, (3) 네 시점을 모두 활용한 Four‑View XVWM이다. 동일 시점 예측 품질은 LPIPS와 DreamSim 지표로 평가했으며, Two‑View 모델이 가장 높은 성능을 보였다. 이는 BEV가 제공하는 전역 위치·방향 마커가 에고와 상호 보완적인 정보를 제공하기 때문이다. Four‑View 모델은 시점별 데이터 노출이 낮아 전체 성능이 다소 떨어졌지만, 모든 입력‑출력 조합을 처리할 수 있는 범용성을 확보했다.
특히 BEV를 이용한 교차 예측에서는 모델이 에고 영상만으로도 정확한 지도상의 위치를 복원했으며, 이는 ‘인지 지도(cognitive map)’와 유사한 공간 정합성을 의미한다. 모델은 BEV 마커의 17 픽셀 크기 변화를 통해 에고에서의 미세 움직임을, 반대로 에고의 급격한 회전을 BEV에서 작은 각도 변화로 매핑하는 스케일 변환 능력도 보여준다. 이러한 특성은 로봇 내비게이션이나 멀티에이전트 상호작용에서 다른 에이전트의 시점을 추론하는 ‘관점‑이동(perspective‑taking)’ 메커니즘으로 확장 가능하다.
결과적으로 XVWM은 (1) 시점 간 일관된 상상 스트림 제공, (2) 시점‑불변 3D 표현 학습을 통한 공간 일반화, (3) 기존 단일 시점 모델 대비 동일 시점 예측에서도 손실이 없거나 개선되는 긍정적 전이 효과를 입증한다. 향후 연구에서는 카메라 캘리브레이션 없이도 더 정교한 3D 재구성을 목표로 하거나, 행동 정책에 직접 연결해 베드맵 기반 계획을 실시간으로 수행하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기