제로샷 로봇 일반화를 위한 대규모 UMI 데이터 스케일링
초록
RDT2는 7 B 규모의 비전‑언어 모델에 로봇 행동 헤드를 결합하고, 1만 시간 이상의 UMI 기반 시연 데이터를 활용해 세 단계 학습(Residual Vector Quantization, 흐름 매칭, 지식 증류)을 수행한다. 이를 통해 새로운 물체·장면·명령·로봇 플랫폼에 대해 제로샷으로 일반화하고, 탁구와 같은 고속·고차원 작업에서도 기존 최첨단 모델을 능가한다.
상세 분석
본 논문은 로봇 일반화의 핵심 장애물인 데이터 규모·다양성, 멀티모달 행동 표현, 실시간 추론 세 가지를 동시에 해결하려는 시도로 눈길을 끈다. 첫 번째 기여는 UMI(Universal Manipulation Interface)를 하드웨어 수준에서 재설계해 강성, 추적 정밀도, 그리퍼 구조를 개선함으로써 10 000시간 이상의 실세계 시연 데이터를 비용 효율적으로 수집한 점이다. 이는 기존 텔레오퍼레이션 기반 데이터가 갖는 실험실 중심·고비용 한계를 극복하고, 다양한 가정 환경에서의 복잡한 변형 물체·유체 조작을 포함한 데이터 다양성을 확보한다.
두 번째 기여는 7 B 사전학습된 VLM(Qwen2.5‑VL)을 백본으로 삼아 행동 토큰화를 Residual Vector Quantization(RVQ)으로 수행한 뒤, 교차 엔트로피 손실로 초기 학습을 진행한 점이다. RVQ는 다단계 잔차 코딩을 통해 연속 행동을 고압축 이산 토큰으로 변환하면서도 양자화 오차를 최소화한다. 이 단계는 VLM이 원래 학습한 이산 확률 분포를 보존함으로써 사전 지식 손실을 방지하고, 이후 확산 기반 행동 전문가 학습의 수렴 속도를 크게 높인다.
세 번째 단계에서는 흐름 매칭(flow‑matching) 손실을 이용해 연속 행동을 직접 모델링하는 확산 전문가를 학습하고, 이를 단일 스텝 생성기로 지식 증류한다. 증류 과정은 다단계 샘플링의 비용을 제거해 실시간 추론을 가능하게 하며, 대규모 VLA 모델이 로봇 제어에 요구되는 30 Hz 이상 속도를 만족하도록 만든다.
실험에서는 네 가지 변수를 동시에 제로샷으로 일반화하는 능력을 평가한다. 즉, 훈련에 등장하지 않은 물체, 장면, 자연어 명령, 그리고 전혀 다른 로봇 팔(다관절·이중팔·다중 자유도)을 모두 포함한다. 결과는 기존 π‑0·π‑0.5 등 최첨단 모델을 크게 앞서며, 특히 변형 물체 조작, 장기 계획, 고속 다이나믹 작업(탁구)에서 눈에 띄는 성능 향상을 보인다. 또한 모델 크기와 데이터 양을 동시에 확대했을 때 성능이 예측 가능하게 향상되는 스케일링 법칙을 제시해, 향후 더 큰 로봇 파운데이션 모델 구축의 로드맵을 제시한다.
전반적으로 RDT2는 (1) 대규모·다양한 실세계 로봇 데이터 확보, (2) 이산·연속 행동 표현을 조화롭게 결합한 효율적 학습 파이프라인, (3) 실시간 추론을 위한 경량 증류 모델이라는 세 축을 성공적으로 구현함으로써, 로봇 일반화 연구에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기