간단한 VLA 로봇 조작 베이스라인 SimVLA
초록
SimVLA는 시각‑언어 백본과 경량 액션 헤드를 결합해 인식과 제어를 명확히 분리한 최소 설계 VLA 모델이다. 0.5 B 파라미터 규모에도 불구하고 표준 시뮬레이션 벤치마크와 실제 로봇 실험에서 다수의 수십억 파라미터 모델을 능가한다. 핵심은 표준화된 데이터 셔플, 정규화, 최적화 스케줄 등 “보이지 않는” 학습 요인을 통제한 점이며, 연속 행동 생성을 위해 흐름 매칭(flow‑matching) 방식을 사용한다. 결과적으로 높은 성능과 낮은 메모리·연산 비용을 동시에 달성한다.
상세 분석
SimVLA 논문은 최근 VLA(시각‑언어‑행동) 연구에서 흔히 발생하는 “아키텍처 복잡도 vs. 성능” 딜레마를 명확히 짚어낸다. 기존 모델들은 3D 공간 인코더, 시계열 체인‑오브‑생각, 확산 기반 정책 등 다양한 추가 모듈을 도입해 성능을 끌어올렸지만, 동시에 학습 레시피와 구현 세부 사항이 서로 뒤섞여 실제 기여도를 평가하기 어려웠다. SimVLA는 이러한 복잡성을 의도적으로 배제하고, 표준화된 VLM(vision‑language model) 백본을 인코더‑전용으로 사용한다. 여기서 VLM은 다중 뷰 RGB와 언어 명령을 토큰화해 하나의 시퀀스로 출력하고, 이 토큰은 액션 헤드에 그대로 전달된다. 액션 헤드는 순수 self‑attention Transformer encoder이며, 별도의 cross‑attention이나 모듈식 라우팅을 도입하지 않는다. 이는 아키텍처 자체가 최소화된 상태에서 데이터와 학습 전략이 성능에 미치는 영향을 명확히 드러내게 한다.
핵심 기술적 선택은 흐름 매칭(flow‑matching) 기반 연속 행동 생성이다. 기존 확산 정책은 다수의 샘플링 스텝과 복잡한 확률적 역전파가 필요해 실시간 제어에 부담이 된다. 반면 SimVLA는 Gaussian 노이즈를 섞은 행동 청크를 입력으로 받아, deterministic vector field를 학습해 노이즈를 직접 복원한다. ℓ₂ 손실로 간단히 최적화되며, 추론 시에는 소수의 Euler 스텝만으로 충분히 정확한 연속 행동을 얻는다. 이 방식은 연산량을 크게 줄이면서도 부드러운 궤적을 제공한다.
또한 논문은 “silent drivers”라 명명한 학습 요인들을 체계화한다. 데이터 셔플링 순서, 행동 및 프로프리오셉션 정규화, 학습률 스케줄, 배치 크기 등은 모두 동일하게 유지했으며, 이러한 표준화가 모델 간 성능 차이를 최소화한다는 실험적 증거를 제시한다. 결과적으로 0.5 B 파라미터 SimVLA는 98.6 % LIBERO 성공률을 기록해 7 B OpenVLA‑OFT(97.1 %)와 3 B π0.5(96.9 %)를 크게 앞선다. 메모리 사용량도 9.3 GB로 24.7 GB인 VLA‑Adapter 대비 3배 가량 절감된다.
실제 로봇 실험에서도 SimVLA는 사전 미세조정 없이 다양한 씬에 zero‑shot으로 적용 가능했으며, π0.5와 동등한 성능을 보였다. 이는 복잡한 3D 센서나 별도 시계열 모듈 없이도 충분히 일반화된 로봇 조작이 가능함을 의미한다. 전체적으로 SimVLA는 “단순함이 곧 강함”이라는 메시지를 실증적으로 입증하며, 향후 새로운 VLM이 등장할 때 백본만 교체하면 바로 최신 성능을 활용할 수 있는 모듈식 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기