프로프리오셉션을 생각하라 로봇 조작을 위한 구현형 시각 추론

프로프리오셉션을 생각하라 로봇 조작을 위한 구현형 시각 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ThinkProprio는 로봇의 관절 각도·위치 등 프로프리오셉션 정보를 텍스트 토큰으로 변환해 언어 명령과 함께 VLM 입력 초기에 결합한다. 이 조기 융합으로 시각 토큰 선택이 로봇 상태에 의해 가이드되어, 행동에 핵심적인 시각 증거만 남기면서 전체 토큰 수를 약 15%로 줄인다. CALVIN·LIBERO 및 실제 로봇 실험에서 기존 VLA 모델 대비 성공률·완료 길이를 소폭 향상시키고, 추론 지연을 50% 이상 감소시켰다.

상세 분석

ThinkProprio는 기존 VLA 파이프라인이 프로프리오셉션을 액션 헤드 직후에만 결합하는 한계를 극복하고자 설계되었다. 핵심 아이디어는 로봇의 연속적인 관절 각도·엔드 이펙터 포즈와 같은 상태 정보를 VLM(비전‑언어 모델)의 텍스트 임베딩 공간에 직접 매핑하는 것이다. 이를 위해 저자들은 연속값을 균일히 구간화하고, 각 구간을 VLM 어휘 사전의 마지막 B개의 토큰 ID에 역매핑한다. 이렇게 생성된 프로프리오셉션 토큰은 언어 명령 토큰과 함께 입력 시퀀스 앞에 배치되어, VLM의 초기 레이어에서 교차‑어텐션을 통해 시각 토큰의 중요도를 재조정한다.

시각 토큰 선택 메커니즘은 두 단계로 이루어진다. 먼저, RMSNorm으로 정규화된 시각 토큰과 프로프리오셉션·언어 토큰을 이용해 물리적으로 기반된 쿼리를 생성한다. 이 쿼리는 소프트맥스와 스케일링을 거쳐 시각 토큰별 스코어 행렬 S를 만든다. 이후 Gumbel 노이즈와 온도 파라미터 α를 적용한 투표 기반 선택을 수행한다. 각 시각 토큰은 여러 쿼리로부터 투표를 받을 수 있으며, 최소 한 표를 받은 토큰만이 최종 시퀀스에 남는다. 선택 과정은 STE(직접‑전파) 기법을 사용해 하드 마스크와 소프트 확률을 결합함으로써 미분 가능성을 유지한다.

선택된 시각 토큰 외에도 전역 컨텍스트 토큰을 추가해 전체 장면의 거친 정보를 보존한다. 이렇게 압축된 토큰 집합은 사전 학습된 VLM에 입력되어, 크로스‑어텐션을 통해 액션 헤드에 전달된다. 액션 헤드는 기존과 동일하게 흐름 기반(Flow) 디퓨전 모델을 사용하지만, 이제 프로프리오셉션 토큰이 VLM 출력에 포함되므로 별도의 프로프리오셉션 인코더가 필요 없다.

실험에서는 CALVIN의 ABC→D 시나리오와 LIBERO의 여러 스위트에서 ThinkProprio를 평가하였다. 토큰 압축 비율을 15%로 낮추었음에도 불구하고, 평균 완료 체인 길이(Avg.Len.)가 4.44→4.55, 성공률이 96.9%→97.3%로 소폭 상승했다. 특히 추론 지연이 52 ms에서 22 ms로 58% 감소했으며, VRAM 사용량도 크게 줄었다. 추가적인 ablation 연구에서는 (1) 텍스트 토큰화가 학습된 선형 프로젝터보다 성능이 우수함을, (2) 프로프리오셉션을 입력 초기에 결합할 때 가장 큰 이득이 발생함을, (3) 크로스‑어텐션 기반 액션 헤드가 다른 조건화 방식보다 효율적임을 확인했다.

실제 로봇 실험에서도 ThinkProprio는 동일한 하드웨어(프리미엄 로봇 팔)에서 시뮬레이션과 유사한 성공률을 보였으며, 지연 감소가 실시간 제어에 긍정적인 영향을 미쳤다. 전체적으로 이 논문은 로봇 상태 정보를 텍스트 토큰 형태로 VLM에 자연스럽게 통합함으로써, 시각‑언어‑액션 삼중 결합을 보다 효율적이고 상태‑감지적으로 만들었다는 점에서 의미가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기