다중시점 4D 월드 모델과 테스트시 행동 추론을 통한 로봇 조작
초록
**
본 논문은 단일 RGB‑D 시점만으로도 임의의 시점에서 일관된 4D(시간·공간) 장면을 생성하고, 생성된 미래 장면을 역전파 기반 테스트‑타임 최적화와 잔차 역동학 모델을 통해 로봇 행동으로 변환하는 MVISTA‑4D 프레임워크를 제안한다. 교차‑시점·교차‑모달리티 피처 융합, 기하학적 정렬, 그리고 트래젝터리 레이턴트 코딩을 핵심 설계로 삼아, 기존 이미지‑기반·부분‑3D 기반 방법들의 한계를 극복하고, 복잡한 조작 과제에서 높은 예측 정확도와 안정적인 행동 실행을 달성한다.
**
상세 분석
**
MVISTA‑4D는 로봇 조작을 위한 “상상‑후‑행동” 패러다임을 4차원(시간·공간) 세계 모델에 적용한다는 점에서 혁신적이다. 기존 연구는 주로 순수 이미지 기반 비디오 예측이나, 제한된 3D 포인트 클라우드·볼륨 형태의 부분적 기하학에 머물러 전체 장면의 일관성을 보장하지 못했다. 이 논문은 단일 시점 RGB‑D 입력을 받아, 임의의 시점에 대한 RGB와 깊이 정보를 동시에 생성하고, 이를 역투영·퓨전하여 시공간적으로 완전한 3D 구조를 복원한다. 핵심 기술은 두 가지 축의 피처 융합이다. 첫째, 교차‑모달리티 융합에서는 동일 픽셀 위치에 RGB와 깊이 토큰을 가로 방향으로 인접 배치하고, 로컬 크로스‑모달리티 어텐션을 적용해 색상·깊이 간 상관관계를 강화한다. 여기서 게이트 메커니즘(γ_app, γ_geo)을 도입해 신뢰도가 낮은 경우 전파를 억제함으로써 노이즈에 강인한 특성을 부여한다. 둘째, 교차‑시점 융합은 세로 방향으로 시점 토큰을 연결하고, 각 시점의 카메라 파라미터를 13차원 임베딩(e_v)으로 변환한다. 이 임베딩은 구면 좌표와 로그 거리 정보를 포함해 회전·이동을 분리하고, 스케일 정보를 명시적으로 제공한다.
시점 간 정합은 기하학‑인식 변형 가능 어텐션을 통해 구현된다. 각 쿼리 토큰은 다른 시점의 에피폴라 라인 위에 K개의 후보 위치를 샘플링하고, 이 제한된 후보 집합에만 멀티‑헤드 어텐션을 수행한다. 이렇게 하면 전역 O(N²) 비용을 (V‑1)·K 로 크게 감소시키면서도 실제 물리적 대응 관계를 유지한다.
행동 추론 부분에서는 기존 역동학(Inverse Dynamics) 모델이 “다중 행동 → 동일 관측 변화”라는 비정형성 때문에 불안정하다는 점을 지적한다. MVISTA‑4D는 트래젝터리 레이턴트 코드(z_traj) 를 도입해 전체 행동 시퀀스를 저차원 잠재 변수 하나로 압축한다. 테스트 시점에 생성된 4D 미래와 레이턴트 코드를 매칭시키기 위해, 생성 모델을 통해 얻은 미래와 실제 목표 미래 사이의 손실을 역전파하여 z_traj 를 최적화한다. 최적화된 레이턴트는 잔차 역동학 모델에 입력되어, 기본 트래젝터리와의 차이를 학습함으로써 미세 조정된 실행 가능한 행동을 출력한다. 이 두 단계(레트라코드 최적화 → 잔차 보정)는 행동 공간을 제한하면서도 높은 정확도를 유지한다는 장점을 제공한다.
실험에서는 3개의 벤치마크(시뮬레이션·실제 로봇·다중 시점 데이터셋)에서 4D 장면 생성 품질과 조작 성공률 모두 기존 최첨단 방법을 크게 앞선다. 특히, 시점이 추가될수록 깊이 정밀도가 향상되고, 복잡한 물체 간 상호작용(예: 쌓기·삽입)에서도 일관된 결과를 보인다. Ablation 연구는 (1) 교차‑모달리티 어텐션, (2) 기하학‑인식 시점 어텐션, (3) 트래젝터리 레이턴트와 잔차 역동학이 각각 성능에 미치는 기여를 정량적으로 입증한다.
요약하면, MVISTA‑4D는 (①) 다중 시점·다중 모달리티 일관성 확보, (②) 기하학적 정렬을 통한 정확한 3D 복원, (③) 트래젝터리 레이턴트 기반 테스트‑타임 행동 최적화라는 세 축을 결합해, 로봇 조작을 위한 세계 모델링의 새로운 패러다임을 제시한다. 향후 연구는 더 높은 해상도와 실시간 처리, 그리고 복합적인 물리 엔진과의 통합을 통해 실제 산업 현장에 적용 가능성을 확대할 수 있을 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기