스트림VLA 사고와 행동을 분리하는 완성 상태 게이팅
초록
스트림VLA는 고수준 텍스트 계획과 시각적 목표 상상을 느린 “시스템 2”에서 수행하고, 빠른 연속 제어는 “시스템 1”이 담당하도록 설계된 이중 시스템 로봇 제어 프레임워크이다. 서브태스크 전이가 감지될 때만 무거운 자동회귀 디코더를 활성화해 텍스트 명령과 완성 이미지(visual completion state)를 생성하고, 이후 72 %의 타임스텝에서는 이 잠긴 목표를 조건으로 흐름 매칭(Flow Matching) 액션 헤드를 사용해 저지연 연속 제어를 수행한다. 실험 결과 LIBERO 벤치마크에서 98.5 % 성공률을 기록했으며, 기존 전체 추론 방식 대비 평균 레이턴시를 48 % 감소시켰다.
상세 분석
스트림VLA는 인간의 이중 과정 이론을 로봇 제어에 적용한 최초의 시도라 할 수 있다. 기존 Vision‑Language‑Action(VLA) 모델들은 매 타임스텝마다 텍스트와 비주얼을 재해석해 고비용 자동회귀 디코딩을 수행했으며, 이는 연산 중복과 지연을 초래한다. 스트림VLA는 이를 “느린 사고(Slow Thinking)”와 “빠른 행동(Fast Action)”으로 명확히 구분한다. 느린 사고 단계에서는 서브태스크 전이를 감지하기 위해 경량 게이팅 모듈이 현재 관찰 이미지와 이전에 생성된 ‘완성 이미지’를 비교한다. 이때 사용되는 디스크리퍼시 점수는 크로스‑어텐션 기반으로 현재 헤드‑카메라 이미지와 잠긴 목표 이미지 사이의 의미적 거리를 추정한다. 점수가 사전 정의된 임계값 τ 이하이면 서브태스크가 완료된 것으로 판단하고, 새로운 텍스트 명령과 완성 이미지를 생성한다.
핵심 혁신은 “완성 상태(Completion State)”를 목표 이미지로 활용한다는 점이다. 기존 비디오 예측 모델은 고정된 시간 간격(t+Δt)에서 프레임을 생성해 실제 실행 속도와 정합되지 않는 경우가 많았다. 반면 스트림VLA는 서브태스크가 끝나는 시점의 최종 시각적 상태를 직접 상상하도록 학습한다. 이 이미지가 시간에 불변하므로 실행 속도가 변동해도 목표가 변하지 않아 정책이 안정된다.
느린 사고 단계에서 생성된 텍스트와 완성 이미지는 “잠금(Locked)” 상태로 저장돼 흐름 매칭 액션 헤드에 조건으로 제공된다. 흐름 매칭은 확률적 확산 대신 조건부 흐름 매칭(Conditional Flow Matching)을 사용해 연속적인 액션 청크를 빠르게 샘플링한다. 따라서 서브태스크 진행 중에는 무거운 자동회귀 디코더를 건너뛰고, 경량 액션 헤드만 실행해 72 % 이상의 타임스텝에서 레이턴시를 크게 줄인다.
모델은 파라미터 효율성을 위해 기본 백본을 π₀.₅와 동일한 트랜스포머 구조로 설계하고, 이미지 생성은 Infinity 아키텍처의 비트‑단위 자동회귀 방식을 차용한다. 또한 KV‑캐시를 활용해 디코딩 비용을 최소화한다. 실험에서는 LIBERO와 RoboTwin 2.0 같은 장기 조작 벤치마크에서 최고 성능을 기록했으며, 실제 로봇에 적용했을 때 외부 간섭 상황에서도 목표를 재설정하고 복구하는 능력을 보였다. 레이턴시 측정은 전체 추론 파이프라인에서 평균 244 ms에서 128 ms로 48 % 감소했으며, 이는 실시간 스트리밍 제어에 충분히 근접한 수준이다.
전반적으로 스트림VLA는 고비용 멀티모달 추론을 필요 시에만 수행하도록 동적 게이팅을 도입함으로써, 고수준 계획 능력과 저지연 연속 제어를 동시에 달성한다는 점에서 로봇 일반화와 실시간 적용 가능성을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기