잠재 추론 기반 비전‑언어‑액션 모델: 라라‑비라의 효율적 실시간 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LaRA‑VLA는 체인‑오브‑쓰(thought) 추론을 연속적인 잠재 공간에 내재시켜, 명시적인 텍스트·시각 토큰 생성 없이도 고차원 로봇 행동을 빠르게 예측한다. 단계적 커리큘럼 학습으로 명시적 CoT supervision을 점진적으로 잠재 표현으로 전이하고, 시각 목표 잠재와 행동 전문가를 결합해 시뮬레이션·실제 로봇 장기 작업에서 기존 방법보다 높은 성공률과 최대 90 %의 추론 지연 감소를 달성한다.

상세 분석

LaRA‑VLA는 기존 VLA 모델이 겪는 두 가지 근본적 한계를 해결한다. 첫째, 텍스트 기반 CoT는 추론 단계가 길어질수록 KV‑cache 사용량과 메모리 요구가 급증해 실시간 제어에 부적합하다. 둘째, 텍스트·시각 CoT가 이산 토큰에 의존함으로써 연속적인 감지·제어 공간과 표현 불일치가 발생한다. 이를 극복하기 위해 저자는 ‘잠재 추론(Latent Reasoning)’이라는 개념을 도입한다. 구체적으로, 초기 단계에서는 Qwen3‑VL 백본에 텍스트·시각 CoT를 명시적으로 학습시켜 구조화된 중간 목표(작업 분해, 움직임 추론, 객체 위치)를 제공한다. 이후 커리큘럼 기반 학습에서 텍스트 CoT 토큰을 연속적인 잠재 변수로 대체하고, 시각 목표는 동일한 이미지 인코더가 생성한 연속 잠재(z)와 <img next> 토큰을 통해 예측한다. EMA(Exponential Moving Average) 인코더를 타깃 네트워크로 활용해 잠재 표현의 붕괴를 방지하고, 시각 잠재와 행동 전문가(16‑layer Diffusion Transformer) 사이의 교차‑어텐션을 통해 잠재 추론 흐름이 직접 연속 액션 궤적을 조건화한다.

학습 파이프라인은 세 단계로 구성된다. Stage I에서는 명시적 CoT와 시각 예측 손실(L_cot, L_vis)을 동시에 최소화해 모델이 멀티모달 입력을 이해하도록 한다. Stage II에서는 텍스트 CoT를 점진적으로 잠재 변수로 압축하고, 시각 잠재 예측을 주요 슈퍼비전으로 전환한다. 마지막 Stage III에서는 행동 토큰 생성을 제거하고, 학습된 잠재 상태만으로 행동 전문가에 입력을 제공해 실시간 제어를 가능하게 한다.

데이터 측면에서 저자는 자동화된 앵커‑기반 파이프라인을 구축해 LIBERO‑LaRA와 Bridge‑LaRA라는 두 개의 구조화된 CoT 데이터셋을 생성한다. 이 파이프라인은 초기 프레임과 명령어에서 Qwen3‑VL을 이용해 의미적 앵커를 추출하고, GroundingDINO·SAM3으로 객체 바운딩 박스를 얻어 시각적 앵커를 만든 뒤, 엔드‑이펙터 궤적을 분석해 움직임 디스크립터를 생성한다. 이렇게 얻은 텍스트·시각 CoT는 단계별 학습에 사용되어, 모델이 복합적인 장기 조작 과제를 이해하고 예측하도록 돕는다.

실험 결과, LaRA‑VLA는 시뮬레이션 벤치마크와 실제 로봇 장기 조작 과제 모두에서 최신 CoT 기반 VLA(예: ECoT, DreamVLA, ThinkAct)보다 높은 성공률을 기록했다. 특히 추론 지연이 평균 0.9 s에서 0.09 s로 감소해 5 Hz 이상의 제어 주파수를 달성했으며, 이는 실시간 로봇 제어에 필수적인 수준이다. 또한 잠재 추론이 연속적인 시각·동작 공간과 자연스럽게 정렬되면서, 복잡한 물체 관계와 동적 환경에서도 안정적인 정책 학습이 가능함을 보여준다.

이 논문은 VLA 분야에 ‘잠재 추론’이라는 새로운 패러다임을 제시함으로써, 고성능·고효율 로봇 제어를 위한 중요한 전환점을 마련한다. 향후 연구는 더 큰 규모의 멀티모달 데이터와 다양한 로봇 플랫폼에 대한 일반화, 그리고 잠재 추론의 해석 가능성을 높이는 방법론 개발로 확장될 수 있다.

잠재 추론 기반 비전‑언어‑액션 모델: 라라‑비라의 효율적 실시간 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기