다중시점 재구성을 통한 행동 중심 잠재 행동 학습
초록
MVP‑LAM은 시간 동기화된 다중 카메라 영상을 이용해 교차‑시점 재구성 목표를 학습함으로써, 시점에 의존하지 않는 이산형 잠재 행동을 추출한다. 이렇게 얻은 잠재 행동은 실제 로봇 행동과 높은 상호정보를 보이며, VLA 사전학습에 활용될 때 조작 성능을 크게 향상시킨다.
상세 분석
본 논문은 인간 시연 비디오에서 라벨이 없는 상태로 로봇 행동을 학습하기 위한 “잠재 행동(Latent Action)”의 품질 문제를 다룬다. 기존 LAM(Latent Action Model)은 단일 시점 영상에서 프레임‑투‑프레임 변화를 압축해 이산 토큰으로 만든 뒤, 재구성 손실을 최소화한다. 그러나 실제 조작 영상은 카메라 이동, 시점 변화, 배경 인물 등 외부 요인(외생 노이즈)에 크게 영향을 받으며, 이러한 요인은 잠재 행동에 불필요하게 포함돼 실제 로봇 행동과의 상호정보(I(Z;A))를 감소시킨다. 논문은 시점 변화를 V가, 행동을 A라고 두고, 제한된 엔트로피 H(Z) 하에서 I(Z;A) ≥ H(Z) – I(Z;V,V′|S,S′) – C 라는 하한을 제시한다. 여기서 I(Z;V,V′|S,S′)를 최소화하면 행동 중심성을 높일 수 있다. 이를 위해 저자는 시간 동기화된 다중 시점 영상을 활용, “교차‑시점 재구성” 손실을 도입한다. 구체적으로, 각 시점 v에서 관찰 oᵥₜ와 oᵥₜ₊₁을 인코더에 넣어 연속 잠재 eᵥₜ를 얻고, 벡터 양자화(Quantize)로 이산 토큰 zᵥₜ를 만든다. 두 시점 v₁, v₂에 대해 (i) 자기‑시점 재구성 L_self = Σᵥ‖oᵥₜ₊₁ – D(oᵥₜ, zᵥₜ)‖²와 (ii) 교차‑시점 재구성 L_cross = Σᵥ,ṽ‖oᵥₜ₊₁ – D(oᵥₜ, z_ṽₜ)‖²를 동시에 최소화한다. 여기서 D는 디코더이며, 교차‑시점에서 토큰을 서로 교환함으로써 디코더가 시점 정보를 받지 못하도록 강제한다. 결과적으로 zᵥₜ는 시점‑특이적 정보를 억제하고, 순수히 상태 전이 Sₜ→Sₜ₊₁에 의해 결정되는 행동 정보를 담게 된다. 실험에서는 Bridge V2 데이터셋을 사용해 MI(Z;A)를 측정했으며, MVP‑LAM이 기존 UniVLA, LAPA 등 대비 8~12% 정도 높은 MI를 달성했다. 또한 단순 선형 분류기로 행동을 예측했을 때 정확도가 크게 상승했으며, OOD(다른 카메라 배치) 상황에서도 성능 저하가 최소화되었다. 마지막으로, MVP‑LAM으로 생성된 잠재 행동을 pseudo‑label로 사용해 VLA 모델을 사전학습한 뒤 SIMPLER와 LIBERO‑Long 벤치마크에 파인튜닝했을 때, 각각 평균 4.3%와 5.7%의 성공률 향상을 기록했다. 전체적으로 시점 변이를 명시적으로 제어함으로써 라벨이 없는 비디오에서 행동 중심 잠재 표현을 효율적으로 추출할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기