- Title: VLA-RAIL A Real-Time Asynchronous Inference Linker for VLA Models and Robots
- ArXiv ID: 2512.24673
- 발행일: 2025-12-31
- 저자: Yongsheng Zhao, Lei Zhao, Baoping Cheng, Gongxin Yao, Xuanzhang Wen, Han Gao
📝 초록
비전-언어-행동(VLA) 모델은 로봇이 자연 언어 명령을 이해하고, 공간-시각적 의미를 추출하며, 열린 세계 조작 작업에 적합한 행동을 생성할 수 있게 합니다. 그러나 VLA 모델의 배포는 다양한 하드웨어 구성과 소프트웨어 인터페이스로 인해 한정되어 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간 비동기 추론 프레임워크인 VLA-RAIL을 제안합니다.
💡 논문 해설
1. **일반적인 비동기 추론 프레임워크**: VLA-RAIL은 다양한 VLA 모델과 고유한 로봇 플랫폼을 연결하는 중간 소프트웨어입니다. 이는 마치 도서관에서 책을 빌려오는 것처럼, 사용자는 원하는 VLA 모델을 쉽게 선택하고 적용할 수 있습니다.
움직임 정제 전략: VLA-RAIL은 움직임의 간헐적인 문제를 해결하기 위해 두 단계로 구성된 정제 전략을 사용합니다. 이는 마치 마라톤 선수가 달리기 중에 부드럽게 속도를 조절하는 것처럼, 로봇이 부드러운 동작을 수행할 수 있게 합니다.
동작 가속화: VLA-RAIL은 로봇의 제어 명령과 트래JECTORY를 동시에 최적화하여 작업 속도를 높이는 전략을 사용합니다. 이는 마치 자동차가 최적의 엔진 출력과 주행 조건을 맞추는 것처럼, 로봇이 가장 효율적으로 동작할 수 있도록 합니다.
📄 논문 발췌 (ArXiv Source)
# 도입
대형 사전 학습 모델의 출현으로 비전-언어-행동(VLA) 모델이라는 새로운 카테고리의 일반적 로봇 정책이 등장했습니다. 다양한 데이터셋을 기반으로 한 이러한 모델은 로봇이 자연 언어 명령을 이해하고, 공간 시각적 의미를 추출하며, 열린 세계 조작 작업에 적합한 행동을 생성할 수 있게 합니다. VLA 패러다임의 개념적 통일성에도 불구하고, 현재의 모델들은 입력 모달리티, 모델 아키텍처, 출력 포맷 및 추론 과정에서 다양하게 차이가 있습니다. 동시에 로봇 플랫폼도 하드웨어 구성과 소프트웨어 인터페이스 측면에서 상당한 이질성을 보입니다. 따라서 VLA 모델을 물리적 로봇에 배포하는 것은 특정 로봇 유형 및 하드웨어 구성에 밀접하게 결합되어 있어, 그 확장성과 플랫폼 간의 포터블성이 크게 제한됩니다.
style="width:100.0%" />
VLA 배포에서 현재 문제 (왼쪽)와 VLA-RAIL의 이점 (오른쪽). 다양한 로봇에 VLA 모델을 배포하려면 일대일 적응이 필요하지만, VLA-RAIL은 다양한 VLA 모델과 이질적 로봇 간에 플러그 앤 플레이 배포를 가능하게 하는 통합 프레임워크를 제공합니다.
비전 언어 모델의 일반화된 다모달 표현을 기반으로, VLA 모델은 행동 전문가를 추가하여 일반화된 로봇 조작을 달성합니다. 이러한 대형 모델들의 추론 지연 시간과 실시간 동작 제어 사이의 균형을 맞추기 위해, 액션 청크 기술이 적용되어 단일 추론 주기에 여러 프레임의 행동을 예측할 수 있습니다. 이 트래젝토리 레벨 예측은 VLA 모델에서 액션 전문가의 주요 패러다임이 되었지만, 각 액션 청크의 끝에 짧은 중단이 발생합니다.
VLA 모델의 내재된 능력 외에도 실제 물리적 로봇에서의 성능은 세 가지 외부 요인에 크게 영향을 받습니다. 1) 실제 조작에서는 동작 실행 중에도 본유감각과 시각 관찰이 동시에 업데이트되므로, 정지하고 다시 시작하는 행동을 피하기 위해 비동기적이고 능동적인 모델 추론이 필요합니다. 그러나 카메라, 네트워크 및 GPU에서 도입되는 변수 지연 시간은 연속적인 액션 청크 간의 정확한 시각적 동일성을 중요하고 어려운 작업으로 만듭니다. 이러한 불일치는 행동 전환시의 중단을 초래하여 제어 정확도와 운동 안정성을 저하시킵니다. 2) VLA 모델은 일반적으로 인간 원격 조작을 통해 수집된 동작 트래젝토리를 훈련시키지만, 이 과정에서 진폭이 발생하고 예측에 잡음을 추가합니다. 게다가 플로우 매칭 또는 확산 정책 기반의 생성적 행동 모델은 이러한 현상을 더욱 악화시킬 수 있습니다. 3) VLA 모델은 서로 다른 시간 단계에서 본유감각 및 시각 관찰로부터 독립적으로 액션 청크를 학습하며, 연속적인 청크 간의 위치, 속도 또는 가속도에 대한 명시적 트래젝토리 제약 조건이 없습니다. 따라서 정확한 시각적 동일성을 유지하더라도 청크 경계에서 트래젝토리 중단이 발생하여 부드럽지 않은 움직임을 초래할 수 있습니다. 그러므로 많은 VLA 모델은 액션 청크의 실행 속도를 줄여서 이러한 진폭의 영향을 감소시키는 데 4-8배까지 느리게 실행합니다.
이러한 문제들을 해결하기 위해, 본 논문에서는 다양한 VLA 모델과 이질적 로봇 간에 링커를 구축하는 일반적이고 확장 가능한 비동기 추론 프레임워크인 VLA-RAIL을 제안합니다. 플러그 앤 플레이 방식의 이 프레임워크는 클라이언트-서버 아키텍처를 사용하여 VLA 모델과 로봇 하드웨어를 분리합니다. 클라이언트는 다양한 로봇을 추상화하는 단일 인터페이스를 제공하며, 로봇에서 본유감각 및 시각 관찰을 수신하고 동작 제어 명령을 로봇에 전달합니다. VLA 모델은 서버에서 실행되며, ZMQ 프로토콜을 통해 클라이언트와 요청-응답 패턴으로 통신합니다.
또한, VLA-RAIL은 액션 청크의 두 단계 후처리 전략을 포함하여 움직임 진폭을 효과적으로 제거합니다. 구체적으로, 청크 내부 단계는 트래젝토리 부드럽기로 청크 내 진폭을 효과적으로 제거하고, 청크 간 단계는 시간적 동일화 및 청크 융합 방법을 사용하여 연속적인 청크 사이의 갑작스런 전환을 추가로 제거합니다. 또한 VLA-RAIL은 본유감각 상태와 시각 관찰을 시간적으로 동일화하는 실시간 데이터 매니저를 활용하며, 다중 스레드 아키텍처를 사용하여 인식, 추론, 트래젝토리 후처리 및 로봇 제어를 동시에 처리합니다. 이러한 분리된 계산 및 제어 파이프라인을 기반으로, 작업 실행은 공동 조정을 통해 동작 트래젝토리 보간과 명령 전달 빈도를 가속화하여 원격 조작 속도보다 더 빠르게 수행될 수 있습니다. 광범위한 실제 실험 결과 VLA-RAIL은 부드러운 동작 트래젝토리를 생성하고, VLA 모델이 더욱 정확하고 효율적으로 로봇 조작을 수행할 수 있게 합니다.
결론적으로 본 논문의 주요 기여는 다음과 같습니다:
다양한 VLA 모델과 이질적 로봇 플랫폼을 무쉽게 연결하는 오픈 소스 및 모델 독립적인 비동기 추론 프레임워크.
진폭 내부 부드럽기와 청크 간 융합으로 구성된 두 단계 액션 청크 후처리 전략, 이는 예측 잡음과 비동기적 시간 불일치로 인한 움직임 진폭을 제거하여 전체 작업 성공률을 향상시킵니다.
동작 트래젝토리 보간 및 명령 전달 빈도를 공동 조정하여 하드웨어 한계까지 가속화하는 간단하고 효율적인 동작 가속화 전략.
관련 연구
비전 언어 행동 모델
비전-언어-행동(VLA) 모델은 시각 인식, 자연 언어 이해 및 로봇 제어를 단일 정책 아키텍처 내에서 통합하는 유망한 패러다임으로 등장했습니다. 초기 작업들은 실제 로봇 트래젝토리를 통해 액션 정책을 사전 학습으로부터 처음부터 훈련하려 시도했으며, RVT는 표준 비전 변환기를 사용하고 Diffusion Policy는 조건부 노이즈 제거 확산 변환기를 사용했습니다. 그러나 로봇의 데모 데이터 부족은 이러한 접근 방식의 일반화를 제한하기 때문에 최근 VLA 모델들은 사전 학습된 비전-언어 기반을 구축하고 처음부터 정책을 훈련하지 않습니다. 예를 들어 OpenVLA, RDT, GR00T, Pi 및 GO1은 대형 비전-언어 모델을 직접 아키텍처에 통합하여 인터넷 스케일 데이터에서 풍부한 지식을 전달하고 제한된 양의 실제 로봇 데모 데이터로 미세 조정할 수 있습니다. 또한 액션 청크는 VLA 모델의 주요 패러다임이 되어 단일 추론에서 다중 프레임 액션을 예측합니다. 이는 모델이 트래젝토리 레벨 동작 의도를 포착하고 고주파 및 저수준 동작 제어 학습의 어려움을 완화하는 것을 가능하게 합니다. 그러나 기존의 모델들을 다양한 로봇에 배포하려면 상당한 적응이 필요하며, 플랫폼 간의 포터블성을 향상시키기 위한 일반적인 도구가 필요한 시점입니다.
액션 청크 융합 방법
가장 직관적인 접근 방식은 VLA 모델을 동기 루프에서 실행하는 것입니다: 로봇이 먼저 관찰을 획득하고, 액션 청크를 추론하며, 행동을 수행한 후에야 다음 추론 주기를 시작합니다. 이러한 경우 연속적인 청크가 자연스럽게 전환되지만 필요한 대기 시간 구간은 움직임의 중단을 초래합니다. 비동기적 추론은 병렬 실행과 추론을 통해 불필요한 대기 시간을 제거하지만, 연속적인 액션 청크 간에 겹치는 영역을 융합하기 위한 추가 전략이 필요합니다. 구체적으로 일부 방법은 다음 액션 청크로 전환하고, 이로 인해 발생하는 시간 불일치를 무시하여 청크 사이의 급격한 중단과 로봇 움직임의 불안정성을 초래합니다. 실시간 청크(RTC)는 새 청크의 처음 몇 개의 동작을 멈추고 현재 청크에서 나머지 동작을 채우는 방법으로 연속적인 액션 청크를 융합합니다. 커스텀 소프트 마스크 전략은 겹치는 영역에 지수적으로 감소하는 가이드 가중치를 적용하지만, 배포가 복잡해지고 다른 VLA 모델 간의 이전성도 부족합니다. A2C2는 비동기적 행동 오류를 수정하기 위해 동적 보정 네트워크를 학습하지만, 아키텍처 수정 및 추가 분지 훈련이 필요합니다. VLASH는 추론 중 미래의 로봇 본유감각 상태를 예측하고 이를 조건으로 VLA 모델을 사용하여 부드러운 청크 융합을 위한 미래에 대한 동작을 예측하지만, 데이터셋 재조직 및 모델 재훈련은 플러그 앤 플레이 배포를 크게 방해합니다.
전제 조건 및 문제 정의
이 섹션에서는 액션 청크 기반 VLA 정책을 공식적으로 정의하고 실시간 파이프라인 내에서 로봇 관찰 획득, VLA 모델 추론 및 동작 제어 간의 시각적 상관관계를 수학적으로 모델링합니다. 마지막으로, 청크 내부 트래젝토리 진폭과 청크 간 제약 없는 중단에 대한 수학적 특성을 제공합니다.
로봇 조작의 시각 파이프라인. 로봇 조작 실행 중에는 세 가지 실시간 파이프라인이 동시에 진행됩니다. 첫 번째 파이프라인은 "눈" 파이프라인으로, 하드웨어 드라이버를 통해 본유감각 데이터와 시각 이미지를 획득하는 상태 검색 파이프라인입니다. 두 번째 파이프라인은 "뇌" 파이프라인으로, 현재 획득된 상태 데이터를 사용하여 새로운 액션 청크를 예측하는 모델 추론 파이프라인입니다. 세 번째 파이프라인은 "손" 파이프라인으로, 동작 명령을 로봇에게 전송하는 동작 제어 파이프라인입니다.
VLA 정책의 수학적 공식
일반적으로 액션 청크 기반 VLA 모델은 언어 지시문 $`l`$, 시각 관찰 $`o_t \in \mathcal{O}`$ 및 본유감각 상태 $`q_t \in \mathcal{Q}`$를 입력으로 받아 동작 청크 $`\mathbf{A}_t^H`$를 출력합니다. 여기서 $`t`$는 시간을 나타내며, $`\mathcal{O}`$는 RGB 이미지를, $`\mathcal{Q}`$는 관절 및 엔드-이펙터 상태를, $`H`$는 예측 범위(청크 크기)를 나타냅니다. 따라서 VLA 정책 $`\pi_\theta`$은 다음과 같이 공식화됩니다:
여기서 $`a_t^k \in \mathcal{A}`$는 시간 $`t`$에서 예측된 $`k`$번째 목표 동작을 나타냅니다. 두 개의 연속적인 액션 청크 $`\mathbf{A}_{t}^H`$와 $`\mathbf{A}_{t^{'}}^H`$는 각각 $(l, q_t, o_t)$ 및 $(l, q_{t^{'}}, o_{t^{'}})$에서 독립적으로 추론되며 트래젝토리 연속성과 속도 또는 가속도의 일관성을 강제하는 명시적 제약 조건이 없습니다.
로봇 조작의 시각 파이프라인
로봇 조작의 실시간 파이프라인. 로봇 조작 실행 중에는 세 가지 실시간 파이프라인이 동시에 진행됩니다: "눈" 파이프라인은 하드웨어 드라이버를 통해 본유감각 데이터와 시각 이미지를 획득하는 상태 검색 파이프라인입니다. "뇌" 파이프라인은 현재 획득된 상태 데이터를 사용하여 새로운 액션 청크를 예측하는 모델 추론 파이프라인입니다. "손" 파이프라인은 동작 명령을 로봇에게 전송하는 동작 제어 파이프라인입니다.
트래젝토리 진폭 분석
액션 청크 기반의 로봇 조작에서 두 가지 종류의 트래젝토리 진폭이 있습니다:
청크 간 중단: 연속적인 액션 청크 사이의 트래젝토리 중단은 고립된 액션 청크 모델링과 시간 불일치로 인해 발생합니다. 두 개의 액션 청크 $`\mathbf{A}_{t_0}^H`$와 $`\mathbf{A}_{t_1}^H`$, 이때 $`t_0`$ 및 $`t_1`$은 로봇 상태가 획득된 시간을 나타냅니다. 이러한 중단은 다음 방정식으로 양자화할 수 있습니다:
여기서 $`t_{s}`$는 $`\mathbf{A}_{t_0}^H`$에서 $`\mathbf{A}_{t_1}^H`$로 전환하는 시간을 나타내며, $`t_1-t_0+t_{a} \le t_{s}`$입니다.
/>
VLA-RAIL 개요. 비동기 프레임워크는 클라이언트-서버 아키텍처를 사용하여 VLA 모델 추론과 로봇 동작 제어를 분리하며, ZMQ 프로토콜을 통해 요청-응답 통신을 구현합니다. 서버와 클라이언트 측 모두에서 단일 인터페이스를 노출함으로써 VLA-RAIL은 다양한 VLA 모델과 이질적 로봇 플랫폼에 대한 플러그 앤 플레이 배포를 지원합니다. 기능적으로, 서버는 GPU 장치에서 계산 집약적인 VLA 모델 추론을 호스팅하며 클라이언트는 본유감각 및 시각 관찰 획득, 모델 추론 요청, 트래젝토리 후처리 및 실시간 로봇 동작 제어를 동시에 처리하기 위해 다중 스레드 설계를 사용합니다.
청크 내부 잡음: 트래젝토리 잡음은 인터넷 스케일 데이터에서 풍부한 지식을 전달하고 제한된 양의 실제 로봇 데모 데이터로 미세 조정할 수 있습니다.