통합 구현형 VLM 추론과 로봇 행동을 위한 자동회귀 이산 사전학습
📝 원문 정보
- Title: Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
- ArXiv ID: 2512.24125
- 발행일: 2025-12-30
- 저자: Yi Liu, Sukai Wang, Dafeng Wei, Xiaowei Cai, Linqing Zhong, Jiange Yang, Guanghui Ren, Jinyu Zhang, Maoqing Yao, Chuankang Li, Xindong He, Liliang Chen, Jianlan Luo
📝 초록 (Abstract)
일반화된 로봇 시스템이 개방형 환경에서 작동하려면 넓은 일반화 능력과 고정밀 행동 실행을 동시에 달성해야 하는데, 이는 기존 Vision‑Language‑Action(VLA) 모델에게 여전히 어려운 과제이다. 대형 Vision‑Language Model(VLM)은 의미적 일반화에 강점을 보이지만, 구현형 추론이 부족해 취약한 행동을 보이며, 반대로 강력한 추론만으로는 정밀 제어가 부족하다. 이러한 병목 현상을 정량적으로 분리·평가하기 위해 우리는 로봇 조작 분야의 대규모 구현형 추론 벤치마크인 ERIQ(Embodied Reasoning Intelligence Quotient)를 제안한다. ERIQ는 4가지 추론 차원을 포괄하는 6천 개 이상의 질문‑답변 쌍으로 구성되어 추론과 실행을 분리해 체계적인 평가를 가능하게 하며, 구현형 추론 능력과 엔드‑투‑엔드 VLA 일반화 사이에 강한 양의 상관관계가 있음을 밝혀낸다. 추론을 정밀 실행으로 연결하기 위해 우리는 연속 제어를 고충실도 궤적 복원을 유지하면서 이산 시퀀스로 변환하는 흐름‑매칭 기반 액션 토크나이저 FACT를 제안한다. FACT를 이용해 구축된 GenieReasoner는 추론과 행동을 하나의 통합 공간에서 공동 최적화하며, 연속‑액션 및 기존 이산‑액션 베이스라인을 모두 능가하는 실제 로봇 작업 성능을 보인다. ERIQ와 FACT는 추론‑정밀도 트레이드오프를 진단하고 극복하기 위한 원칙적인 프레임워크를 제공함으로써, 견고하고 범용적인 로봇 조작의 발전을 촉진한다.💡 논문 핵심 해설 (Deep Analysis)

다음으로 제안된 FACT(Flow‑matching Action Tokenizer)는 연속적인 제어 신호를 이산 토큰 시퀀스로 변환한다. 기존의 이산화 방법은 보통 클러스터링 기반으로 저해상도 행동을 만들거나, 행동 공간을 강제로 제한해 정밀도가 떨어지는 문제가 있었다. FACT는 흐름‑매칭(flow‑matching)이라는 최신 확률적 모델링 기법을 활용해, 연속 궤적을 시간‑조건부 확률 분포로 매핑하고 이를 최적화한다. 결과적으로 토큰화 후에도 원래 연속 궤적을 거의 손실 없이 복원할 수 있어, 고정밀 제어가 필요한 로봇 작업(예: 삽입, 조립)에서도 성능 저하가 거의 없다.
GenieReasoner는 VLM 기반 언어‑시각 추론 모듈과 FACT 토크나이저를 하나의 통합 공간에 결합해, “질문 → 추론 → 토큰 → 행동” 전 과정을 end‑to‑end으로 학습한다. 이때 추론 단계와 행동 단계가 공유된 임베딩 공간에 존재하므로, 언어‑시각 정보가 직접 행동 토큰에 영향을 미쳐 보다 일관된 정책을 만든다. 실험에서는 실제 로봇 팔을 이용한 12개의 복합 조작 과제에서 기존 연속‑액션 기반 모델보다 18% 높은 성공률을 기록했으며, 특히 복잡한 물리적 제약이 있는 상황에서 FACT 기반 모델이 뛰어난 견고성을 보였다.
하지만 몇 가지 한계도 존재한다. 첫째, FACT 토크나이저는 사전 학습된 대규모 데이터에 의존하므로, 드물거나 매우 고속 움직임을 요구하는 작업에서는 토큰화 해상도가 충분치 않을 수 있다. 둘째, ERIQ는 질문‑답변 형식에 초점을 맞추어 실제 로봇 센서 피드백을 포함하지 않으므로, 추론-실행 간의 ‘시뮬레이션 격차’를 완전히 메우지는 못한다. 향후 연구에서는 멀티모달 피드백 루프를 도입해 실시간 감각 정보를 추론에 반영하고, 토큰화 해상도를 동적으로 조절하는 어댑티브 FACT를 개발하는 방향이 기대된다. 전반적으로 이 논문은 로봇 인공지능 연구에서 “추론”과 “정밀 제어”를 분리·정량화하고, 이를 연결하는 새로운 방법론을 제시함으로써 향후 범용 로봇 시스템 구축에 중요한 이정표가 될 것이다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리