동적 객체 조작을 위한 초경량 비전언어액션 모델 DynamicVLA
초록
DynamicVLA는 0.4 B 파라미터 규모의 경량 비전‑언어‑액션(VLA) 모델에, 연속 추론(Continuous Inference)과 잠재 인식 액션 스트리밍(Latent‑aware Action Streaming)이라는 두 가지 실시간 제어 메커니즘을 결합해 동적 물체 조작 문제를 해결한다. 또한 자동 수집 파이프라인을 통해 200 K개의 합성 에피소드와 2 K개의 실제 로봇 에피소드를 포함하는 DOM(Dynamic Object Manipulation) 벤치마크를 제공한다. 실험 결과, 기존 VLA 대비 인식‑실행 지연을 크게 줄이고, 빠른 물체 운동에 대한 적응력과 일반화 능력이 크게 향상되었다.
상세 분석
DynamicVLA는 동적 물체 조작이라는 고난이도 로봇 과제를 해결하기 위해 세 가지 핵심 설계를 제안한다. 첫 번째는 0.4 B 파라미터 규모의 초경량 VLA 아키텍처이다. 기존 대형 VLM 기반 VLA가 트랜스포머형 비전 인코더를 사용해 토큰 수가 프레임 수에 따라 급격히 증가하는 반면, 본 논문은 FastViT 기반의 컨볼루션 비전 인코더를 채택해 공간 압축 효율을 극대화하고, 구조적 정보를 보존한다. 언어 백본은 SmolLM‑2‑360M의 앞 16 레이어만 사용해 연산량을 크게 낮추면서도 언어‑시각 융합 능력을 유지한다. 두 번째 설계인 연속 추론(Continuous Inference)은 기존 VLA가 하나의 액션 청크를 완전히 실행한 뒤에야 다음 추론을 시작하는 “inter‑chunk waiting” 문제를 해소한다. 모델은 현재 청크가 실행되는 동안에도 새로운 청크를 병렬로 예측하여, 추론 지연 m이 실행 청크 길이 n보다 작을 경우 언제든 최신 액션을 받아 실행한다. 이는 동적 환경에서 물체가 움직이는 동안에도 제어 루프가 끊기지 않게 만든다. 세 번째인 잠재 인식 액션 스트리밍(Latent‑aware Action Streaming)은 추론 지연으로 발생하는 “perception‑execute gap”을 보완한다. 매 타임스텝마다 최신 청크의 잠재 표현을 검증하고, 오래된 액션을 폐기해 최신 예측만을 실행함으로써 시계열 정합성을 유지한다. 액션 전문가(Action Expert)는 흐름 매칭(Flow Matching) 기반의 조건부 디퓨전 트랜스포머를 사용해 연속적인 6DoF 액션 시퀀스를 생성한다. 이때 시각‑언어‑프롭리오센스 정보를 라티스 공간에 투영한 뒤, 디퓨전 과정에서 노이즈를 역전시켜 목표 액션을 복원한다. 데이터 측면에서 저자들은 DOM 벤치마크를 구축했다. 자동화된 파이프라인을 통해 2.8 K개의 다양하고 복잡한 시뮬레이션 씬과 206개의 물체를 조합해 200 K개의 합성 에피소드를 생성했으며, 듀얼 RGB 트래킹 기반 실시간 6D 포즈·속도 추정으로 2 K개의 실제 로봇 에피소드를 텔레오퍼레이션 없이 수집했다. 실험에서는 시뮬레이션·실제 환경 모두에서 응답 시간, 물체 속도 변화 적응, 시각·동작 일반화, 미지 씬·물체에 대한 제로샷 성능을 평가했다. 결과는 기존 RDT‑2, RT‑VLA, VLASH 등과 비교해 평균 30 % 이상 빠른 반응 속도와 10‑15 % 향상된 성공률을 보였으며, 특히 1 m/s 이상 빠른 물체에 대한 잡기·이동 작업에서 큰 이점을 나타냈다. 한계점으로는 아직 0.4 B 모델이 복잡한 다중 물체 상호작용이나 장시간 장면 기억에 약하고, 실시간 추론 지연이 완전히 사라지지는 않아 고속 물체(>1.5 m/s)에서는 실패율이 상승한다는 점을 언급한다. 향후 연구는 더 큰 규모의 라티스 모델과 메모리‑강화 메커니즘을 결합해 장기 의존성을 보강하고, 멀티‑에이전트 협업 시나리오에 확장하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기