시각촉각 세계 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각과 촉각을 동시에 활용하는 다중 과제 세계 모델(VT‑WM)을 제안한다. 촉각 정보를 통해 접촉 물리학을 명시적으로 학습함으로써, 물체 영속성 유지와 물리 법칙 준수에서 기존 비전 전용 모델(V‑WM)보다 각각 33 %와 29 % 향상된 성능을 보인다. 실제 로봇 실험에서는 접촉이 많은 다단계 작업에서 성공률이 최대 35 % 상승했으며, 제한된 시연 데이터만으로도 새로운 과제에 빠르게 적응한다는 점을 입증한다.

상세 분석

VT‑WM은 시각‑촉각 멀티모달 인코더와 12‑계층 트랜스포머 기반 예측기로 구성된다. 시각 인코더는 Cosmos 토크나이저를, 촉각 인코더는 최신 Sparsh‑X 모델을 사용해 각각 RGB 영상과 Digit 360 촉각 이미지에서 저차원 잠재 표현 sₖ와 tₖ를 추출한다. 이 두 잠재는 위치 임베딩과 함께 결합되어 하나의 토큰 시퀀스로 변환되며, 트랜스포머는 공간‑시간 자체‑주의와 로테리 포지션 임베딩(RoPE)을 교차‑주의와 번갈아 적용해 행동 aₖ를 조건화한다. 이렇게 설계된 구조는 동일한 시각 프레임이라도 촉각 신호에 따라 전혀 다른 물리적 전개를 생성하도록 강제한다.

학습 단계에서는 교사 강제 손실(L_teacher)과 샘플링 손실(L_sampling)을 동일 가중치로 결합해, 단기 정확도와 장기 롤아웃 일관성을 동시에 최적화한다. 교사 강제는 다음 단계의 잠재를 직접 지도해 빠른 수렴을 돕고, 샘플링 손실은 모델이 자체 생성한 상태에 대해 재귀적으로 예측하도록 하여 분포 이동 문제를 완화한다. 데이터는 1.5초 길이의 비디오(9프레임, 6 fps)와 0.16초 길이의 촉각 시퀀스(각 센서당 2프레임)로 구성돼, 시각의 저주파 전역 정보와 촉각의 고주파 국부 접촉 정보를 자연스럽게 보완한다.

실험에서는 7개의 접촉‑풍부한 조작 과제(과일 배치, 푸시, 천으로 닦기, 큐브 스택, 마커 스크리블 등)를 사용해 모델의 상상(imagination)과 계획(planning) 능력을 평가한다. 상상 측면에서는 물체 영속성 유지율과 물리 법칙 위반 비율을 정량화했으며, VT‑WM이 V‑WM 대비 각각 33 %와 29 % 개선된 결과를 보였다. 계획 단계에서는 CEM 기반 모델 예측기를 활용해 목표 이미지와의 ℓ₂ 거리 최소화를 목표 함수로 사용했으며, 촉각이 목표 신호에 직접 포함되지 않음에도 불구하고 초기 접촉 상태를 정확히 파악해 비용 평가를 정밀하게 만든다. 실제 로봇 실험에서 VT‑WM은 제로샷 설정에서도 접촉‑중심 과제의 성공률이 평균 35 % 상승했으며, 특히 다단계 스택 작업에서 가장 큰 이점을 보였다. 마지막으로 제한된 시연(수십 개)만으로 새로운 과제에 전이했을 때도, VT‑WM은 안정적인 계획을 생성해 기존 비전 전용 모델보다 현저히 높은 성공률을 기록했다.

이 논문은 촉각을 통한 접촉 물리학의 명시적 모델링이 로봇 세계 모델의 신뢰성을 크게 향상시킬 수 있음을 실증한다. 특히 물체가 가려지거나 시각적으로 혼동되는 상황에서도 촉각이 제공하는 로컬 접촉 정보가 전역 시각 예측을 보정해, 물체 소실·텔레포트와 같은 비현실적 현상을 방지한다. 또한, 멀티모달 잠재 결합과 교차‑주의 기반의 행동 조건화가 복잡한 동시다발적 접촉 시나리오에서도 효율적인 롤아웃을 가능하게 함을 보여준다. 향후 연구에서는 촉각 목표 신호를 직접 포함한 목표‑조건 계획, 더 높은 해상도의 촉각 센서, 그리고 실시간 피드백 루프를 통한 온라인 재계획 등으로 확장할 여지가 크다.

시각촉각 세계 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기