실용적인 비전언어행동 기반 모델 LingBot VLA

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LingBot-VLA는 9가지 듀얼암 로봇에서 수집한 2만 시간 규모의 실제 조작 데이터를 활용해 학습한 비전‑언어‑행동(VLA) 기반 모델이다. 3대 로봇 플랫폼에서 100개 과제·130에피소드씩 평가했을 때 기존 방법들을 크게 앞섰으며, 8GPU 환경에서 초당 261 샘플 처리 속도를 달성해 학습 효율성도 크게 개선했다. 코드와 모델, 벤치마크 데이터를 모두 공개해 실세계 로봇 학습 연구를 촉진한다.

상세 분석

LingBot‑VLA 논문은 현재 VLA 연구에서 가장 크게 놓치고 있던 두 가지 문제, 즉(1) 실제 로봇 데이터를 대규모로 확장했을 때 성능이 어떻게 변하는지에 대한 실증적 분석과(2) 대규모 학습을 지원하는 효율적인 인프라 구축을 동시에 해결한다는 점에서 의미가 크다.

첫째, 저자들은 9개의 듀얼‑암 로봇(Agibot G1, AgileX, Galaxea R1Lite·Pro, Realman RS‑02, Leju KUA VO 4 Pro, Qinglong, ARX Lift2, Bimanual Franka 등)에서 총 2만 시간에 달하는 텔레옵레이션 데이터를 수집했다. 데이터는 다중 카메라 RGB‑D 영상, 고정밀 로봇 상태, 그리고 Qwen3‑VL‑235B‑A22B 모델을 활용해 자동 생성된 작업·하위 작업 명령어와 인간이 검증·보정한 라벨을 포함한다. 이렇게 구축된 데이터셋은 기존 VLA 모델이 주로 사용한 시뮬레이션·제한된 실제 데이터(수백~수천 시간)와 비교해 규모와 다양성에서 10배 이상 차별화된다.

둘째, 스케일링 실험에서는 사전학습 데이터 양을 3 k h→20 k h로 확대했을 때 downstream 성공률이 포화 없이 지속적으로 상승한다는 ‘스케일링 법칙’을 제시한다. 특히 20 k h 수준에서도 성공률 상승 곡선이 완만해지지 않아, 향후 데이터 규모를 더 늘려도 성능 향상이 기대된다는 실증적 근거를 제공한다. 이는 로봇 학습 분야에서 “데이터가 곧 성능”이라는 가설을 뒷받침한다.

셋째, 모델 아키텍처는 최신 대형 VLM인 Qwen2.5‑VL을 백본으로 사용하고, 별도 액션 전문가(action expert)를 MoT(Mixture‑of‑Transformers) 구조로 결합한다. 관측 토큰(Oₜ)에는 3‑view 이미지, 텍스트 명령, 로봇 상태가 포함되고, 액션 토큰(Aₜ)은 50‑step 연속 동작을 흐름 매칭(Flow Matching) 방식으로 예측한다. 흐름 매칭은 연속적인 제어 신호를 고품질 가우시안 노이즈와 선형 보간해 학습함으로써 부드러운 궤적을 생성한다. 또한, LingBot‑Depth와의 지식 증류를 통해 깊이 토큰을 정렬함으로써 공간 인식 능력을 강화한다.

넷째, 학습 효율성 측면에서 저자들은 FSDP 기반의 완전 샤딩 데이터 병렬(Fully Sharded Data Parallel)과 하이브리드 샤딩 전략을 적용해 메모리 사용량을 최소화하고, FlexAttention 및 torch.compile을 활용한 연산자 수준 최적화로 8‑GPU 클러스터에서 초당 261 샘플(≈1.5‑2.8× 기존 코드베이스)이라는 높은 처리량을 달성했다. 이는 대규모 로봇 데이터셋을 실제 연구 환경에서 다루기 위한 실용적인 솔루션을 제시한다.

다섯째, 평가 프로토콜은 GM‑100 벤치마크(100개 과제)와 3가지 로봇(다양한 관절·그리퍼 구성을 가진 듀얼‑암)에서 각각 130 에피소드씩 수행해 성공률, 성공 시간, 실패 유형 등을 종합적으로 측정한다. LingBot‑VLA는 평균 성공률 87% 이상을 기록했으며, 기존 최첨단 모델(예: OpenPI‑π, StarVLA 등)은 70%대에 머물렀다. 특히 새로운 로봇 플랫폼에 대한 제로‑샷 전이 성능이 뛰어나, 데이터와 하드웨어 간 격차를 크게 줄였다.

마지막으로, 코드, 사전학습 체크포인트, 벤치마크 데이터셋을 모두 오픈소스로 제공함으로써 재현성 및 커뮤니티 확장을 적극 지원한다. 전체적으로 LingBot‑VLA는 대규모 실제 로봇 데이터와 효율적인 학습 인프라가 결합될 때 VLA 모델이 실세계 로봇 조작에 얼마나 강력해질 수 있는지를 설득력 있게 보여준다.

실용적인 비전언어행동 기반 모델 LingBot VLA

초록

상세 분석

댓글 및 학술 토론

의견 남기기