VLA 모델 스케일링 재고: 정렬·혼합·정규화
초록
본 논문은 로봇 데이터의 이질성을 고려한 Vision‑Language‑Action(VLA) 모델의 스케일링 방식을 체계적으로 재검토한다. 엔드‑이펙터 상대 좌표계 기반 통합 행동 표현이 크로스‑임베디드 전이에서 핵심이며, 무분별한 데이터 혼합은 성능 저하를 초래한다는 점을 실험적으로 입증한다. 또한 제안한 그룹드 블라인드 앙상블 프로토콜을 통해 실험자 편향을 최소화한다.
상세 분석
이 연구는 로봇 제어라는 물리적 제약이 존재하는 영역에서 “데이터를 많이 모으면 성능이 좋아진다”는 전통적인 스케일링 가설을 정밀 검증한다. 핵심은 세 가지 축, 즉 물리적 정렬(Physical Alignment), 임베디언트 혼합(Embodiment Mixture), 그리고 학습 정규화(Training Regularization)이다.
첫 번째 축에서는 행동 공간을 ‘통합 엔드‑이펙터(EEF) 상대 좌표’로 정의한다. 로봇마다 관절 수와 제어 방식이 다르지만, 모든 로봇을 공통된 고차원 행동 공간 A_uni에 매핑하고, 사용되지 않는 차원은 마스크 처리한다. 이렇게 하면 서로 다른 로봇이 동일한 물리적 프리미스를 공유하게 되어, 크로스‑임베디드 전이 시 좌표계 불일치에 의한 오류를 크게 감소시킨다. 실험 결과, EEF‑Relative 표현이 Joint‑Absolute 혹은 World‑Relative 표현보다 평균 12% 이상 높은 성공률을 보였다.
두 번째 축인 임베디언트 혼합에서는 대규모 데이터셋을 무작위로 섞는 것이 반드시 이득이 되는 것이 아님을 입증한다. 데이터 균형을 맞추기 위해 각 데이터셋별 프레임 스텝을 동적으로 조절했음에도, 서로 다른 로봇군(예: 7‑DoF 팔 vs. 24‑DoF 손)의 데이터를 동시에 학습하면 ‘음성 전이(Negative Transfer)’ 현상이 발생한다. 특히, 고주파 시뮬레이션 데이터와 저주파 실세계 데이터가 섞일 때, 모델이 시뮬레이션 편향을 과도하게 학습해 실제 로봇에서의 성능이 8~15% 감소한다. 따라서 데이터 혼합 비율을 사전에 탐색하거나, 로봇별 어댑터 레이어를 도입하는 것이 필요하다.
세 번째 축인 정규화에서는 감각 드롭아웃(Sensory Dropout)과 다단계 파인튜닝(Multi‑Stage Curriculum) 등 직관적인 기법이 대규모 사전학습 단계에서는 일관된 이점을 제공하지 못한다는 점을 확인한다. 감각 드롭아웃은 소규모 실험에서는 과적합 방지에 도움이 되었지만, 180M 프레임 규모에서는 오히려 학습 안정성을 저해해 손실이 0.3% 상승했다. 다단계 파인튜닝 역시 초기 단계에서 성능이 약간 상승했지만, 전체 파이프라인을 거친 후에는 초기 모델과 차이가 없었다.
실험 설계 측면에서 가장 눈에 띄는 기여는 ‘그룹드 블라인드 앙상블(Grouped Blind Ensemble)’ 프로토콜이다. 모델 풀을 무작위 그룹으로 나누고, 각 그룹 내 모델을 익명화한 뒤 실행 순서를 섞어 운영자가 모델 정체성을 알 수 없게 만든다. 성공/실패 이진 결과만 기록함으로써 인간 편향을 최소화하고, 대규모 실험에서도 평가 일관성을 확보한다. 실제 로봇 실험 1,200회 중, 블라인드 프로토콜을 적용했을 때 동일 모델 간 성공률 변동폭이 4% 이하로 감소하였다.
전체적으로 이 논문은 VLA 모델을 대규모로 확장하려면 (1) 물리적 좌표계 정렬을 통한 행동 표현 통일, (2) 데이터 혼합 시 임베디언트 차이를 고려한 전략적 샘플링, (3) 기존 정규화 기법이 대규모 학습에 그대로 적용되지 않을 수 있음을 강조한다. 이러한 인사이트는 향후 로봇 일반화 모델을 설계할 때 데이터와 물리적 구조를 동시에 고려하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기