스파이시한 상관관계 차단을 위한 정책 대비 디코딩
초록
본 논문은 로봇 기반 모델이 학습 데이터에 존재하는 잡음‑스파이시한 상관관계에 과도하게 의존하는 문제를 해결하고자, 사전 학습된 정책을 그대로 두고 입력 영상에서 목표 객체만을 남기고 나머지를 마스킹한 뒤, 원본 입력과 마스크 입력에 대한 행동 확률 분포를 대비(contrast)하는 Policy Contrastive Decoding (PCD) 를 제안한다. PCD는 모델 가중치를 수정하지 않는 플러그인 방식이며, Autoregressive 정책(OpenVLA)과 Diffusion 기반 정책(Octo, π₀) 모두에 적용 가능하도록 객체 추적‑마스킹(Track2Mask)과 KDE‑기반 확률 모델링(KDE‑PM)을 설계하였다. 시뮬레이션 및 실제 로봇 실험에서 PCD는 기존 정책 대비 8.9 %~108 %의 성능 향상을 달성하였다.
상세 분석
본 연구는 로봇 기반 모델이 사전 학습 단계에서 배경, 조명, 텍스처 등 작업과 무관한 시각적 요인에 과도하게 의존하게 되는 스파이시한 상관관계(spurious correlation) 문제를 정량적으로 진단하고, 이를 완화하기 위한 Training‑free 접근법을 제시한다. 핵심 아이디어는 정책이 입력 영상에서 목표 객체에만 집중하도록 강제하는 것으로, 이를 위해 두 가지 핵심 모듈을 도입한다. 첫 번째는 Track2Mask이다. 초기 프레임에서 인간이 제공한 포인트·박스 프롬프트 혹은 Grounding DINO와 같은 오픈‑보드 객체 탐지기를 이용해 목표 객체를 식별하고, 이후 SAM2를 활용해 연속 프레임에서 객체를 추적·세분화한다. 이렇게 얻어진 마스크는 Inpainting을 통해 객체가 제거된 영상(객체‑마스크드 이미지)으로 변환된다. 두 번째는 KDE‑PM이다. Diffusion 기반 정책은 직접적인 행동 확률 분포를 출력하지 않으므로, 정책으로부터 N개의 샘플 행동을 추출한 뒤 각 차원별로 가우시안 커널 밀도 추정을 수행한다. 이를 통해 연속적인 행동 차원에 대한 근사 확률 분포를 얻는다.
PCD는 원본 영상 oᵢ와 객체‑마스크드 영상 ĥoᵢ에 대해 각각 정책 π_θ(aᵢ|ℓ,oᵢ)와 π_θ(aᵢ|ℓ,ĥoᵢ)를 계산하고, 두 확률 분포의 비율을 α 파라미터로 조절된 형태로 결합한다(π* = C·π·(π/π̂)^α). α가 클수록 스파이시한 특징에 대한 의존도가 억제되고, 객체‑관련 특징에 대한 신뢰도가 증폭된다. 이 과정은 정책의 내부 파라미터를 전혀 변경하지 않으며, 추론 단계에서만 수행된다. 실험에서는 OpenVLA, Octo, π₀ 세 가지 공개 정책에 PCD를 적용했으며, 시뮬레이션 벤치마크에서는 각각 50.6 %, 29.7 %, 8.9 %의 성공률 향상을, 실제 로봇 환경에서는 π₀에 대해 108 %의 향상을 기록했다. 특히, 배경 조명 변화나 손잡이 위치 변동 등 시각적 교란에 대해 기존 정책은 30 % 이상 성능이 급락했으나, PCD 적용 후 이러한 급락이 현저히 완화되었다.
이 논문의 기여는 (1) Training‑free이며 플러그‑인 형태로 다양한 정책에 적용 가능한 일반화된 스파이시 상관관계 완화 기법을 제시한 점, (2) Autoregressive와 Diffusion 두 패러다임 모두를 아우르는 통합 확률 모델링 방식을 설계한 점, (3) 광범위한 시뮬레이션·실제 로봇 실험을 통해 실제 적용 가능성을 입증한 점이다. 또한, 객체 마스킹을 위한 Track2Mask 파이프라인이 인간 최소 개입 혹은 완전 자동화된 설정을 모두 지원함으로써, 실제 로봇 시스템에 손쉽게 통합될 수 있다는 실용적 장점도 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기