대규모 행동 모델을 위한 공동 학습 데이터 모달리티와 전략에 대한 체계적 연구
초록
본 논문은 로봇 조작을 위한 대규모 행동 모델(LBM)의 일반화 능력을 향상시키기 위해, 다섯 가지 이질적 데이터 모달리티와 두 가지 학습 단계 전략을 체계적으로 평가한다. 4,000시간 규모의 로봇·인간 데이터와 5천만 개의 비전‑언어 샘플을 활용해 89개의 정책을 학습·검증한 결과, 표준 비전‑언어 데이터와 교차‑구현 로봇 데이터가 가장 큰 성능 향상을 제공하며, 이들을 결합하면 장기 작업에 대한 빠른 파인튜닝이 가능함을 확인하였다.
상세 분석
이 연구는 현재 LBM이 직면한 데이터 스케일 격차 문제를 해결하고자, ‘공동 학습(co‑training)’이라는 프레임워크를 정량적으로 검증한다. 다섯 가지 모달리티—표준 비전‑언어(VL) 데이터, 로봇 궤적에 대한 밀집 언어 주석, 교차‑구현 로봇 데이터, 인간 동영상, 그리고 이산 로봇 행동 토큰—를 각각 단일 단계와 두 단계(1단계 전용, 2단계 전·후) 학습 전략에 투입하였다. 모델 아키텍처는 사전학습된 비전‑언어 백본(PaliGemma2‑PT)과 흐름 변환기 기반 액션 헤드(ActionFT)를 결합한 VLA 구조이며, 연속 행동은 흐름 매칭(flow matching) 손실로, 텍스트·이산 토큰은 교차 엔트로피 손실로 학습한다.
실험 결과는 다음과 같이 요약된다. 첫째, 표준 VL 데이터와 교차‑구현 로봇 데이터는 시뮬레이션 및 실제 환경 모두에서 분포 이동(distribution shift), 미보인 작업, 언어 지시 수행 능력을 현저히 개선한다. 이는 VL 데이터가 물리적 상식과 공간 관계를 제공하고, 교차‑구현 데이터가 다양한 로봇 형태와 환경을 통해 행동 다양성을 확대하기 때문이다. 둘째, 인간 동영상에서 추출한 이산 행동 토큰이나 VLM 기반 주석은 기대 이하의 효과를 보였으며, 특히 이산 토큰은 연속 제어와의 정합성 부족으로 성능 향상이 없었다. 셋째, 두 단계 학습 전략 중 ‘첫 단계에만 공동 학습 데이터를 사용하고 두 번째 단계에서 로봇 연속 행동만 학습’하는 방식이 가장 효율적이었다. 이는 초기 단계에서 풍부한 멀티모달 표현을 학습하고, 이후 로봇 특화 데이터로 정밀 조정함으로써 과적합을 방지하고 일반화를 촉진한다는 점을 시사한다.
또한, 효과적인 모달리티들을 결합하면 누적적인 성능 향상이 관찰되었다. 예를 들어, VL + 교차‑구현 데이터를 동시에 학습한 정책은 단일 모달리티 대비 평균 12 % 이상의 성공률 상승을 보였으며, 파인튜닝 단계에서 장기(>30 s) 복합 작업에 대한 적응 속도가 2배 가량 빨라졌다. 흥미롭게도, 로봇 전용 데이터만으로 학습된 모델은 백본의 비전‑언어 이해 능력이 저하돼, VQ‑VAE 기반 이미지‑텍스트 벤치마크에서 성능이 크게 떨어졌다. 반면, 효과적인 공동 학습을 적용한 모델은 이러한 손실을 회복하고, VQ‑A, GQA, NLVR2 등 표준 벤치마크에서 기존 수준을 유지하거나 약간 향상시켰다.
마지막으로, 논문은 ‘사고 흐름(chain‑of‑thought, CoT)’을 명시적으로 생성해 행동을 조건화하는 방식을 실험했지만, 시뮬레이션 벤치마크에서는 유의미한 성능 향상이 없었다. 이는 현재 로봇 제어에 있어 CoT가 추가적인 정보보다 불필요한 복잡성을 도입할 가능성을 보여준다. 전반적으로, 이 연구는 대규모 로봇 행동 모델을 설계할 때 어떤 데이터 소스와 학습 스케줄이 실질적인 이득을 주는지를 명확히 제시함으로써, 향후 스케일업 및 일반화 연구에 중요한 로드맵을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기