VLA OPD: 온라인 실시간 학습으로 강화하는 비전 언어 액션 모델
초록
VLA-OPD는 로봇 조작을 위한 비전-언어-액션 모델의 후속 훈련을 개선하는 새로운 프레임워크입니다. 기존 오프라인 지도학습의 분포 변화 문제와 온라인 강화학습의 샘플 비효율성을 해결하며, 전문가 교사 모델로부터 조밀한 감독을 받아 자체 생성 궤적에서 실시간 오류 수정이 가능합니다. 리버스-KL 목적 함수를 도입하여 안정적인 정책 학습과 사전 학습된 능력 보존을 동시에 달성했으며, LIBERO와 RoboTwin2.0 벤치마크에서 샘플 효율성과 강건성을 크게 향상시켰습니다.
상세 분석
본 논문이 제안하는 VLA-OPD 프레임워크의 기술적 핵심은 ‘온-폴리시 디스틸레이션’과 ‘리버스-KL 목적 함수’에 있습니다. 기존 VLA 후속 훈련의 두 주류인 오프라인 SFT와 온라인 RL은 각각 치명적인 한계를 지니고 있었습니다. SFT는 정적 전문가 데이터에 의존하기 때문에 에이전트가 실제 환경에서 마주하는 ‘자기 유도 상태’의 분포 변화에 취약하고, 공격적인 파라미터 업데이트로 인해 사전 학습된 일반화 능력을 망각하는 문제가 있습니다. 반면, RL은 희소한 보상 신호로 인해 샘플 효율성이 극히 낮고 최적화의 변동성이 큽니다.
VLA-OPD는 이 문제를 ‘실시간 궤적 생성’과 ‘조밀한 교사 감독’의 결합으로 해결합니다. 학생 정책이 환경과 상호작용하며 생성한 궤적(온-폴리시 샘플링)을 동결된 전문가 교사 정책이 단계별로 평가하여 조밀한 토큰 수준의 보정 신호를 제공합니다. 이는 희소한 환경 보상에 의존하지 않으면서도 학생이 자신의 실수로 인해 도달한 오류 상태에서 바로 수정 학습을 할 수 있게 합니다. 이 과정의 안정성을 보장하는 것이 리버스-KL 발산을 최소화하는 목적 함수입니다. 포워드-KL은 교사 정책의 불확실성까지 모방하려는 ‘모드 커버링’ 성향으로 인해 엔트로피가 폭발적으로 증가하는 문제가 있고, Hard-CE(Argmax)는 엔트로피가 조기에 붕괴되어 탐험에 필요한 행동 다양성을 잃게 합니다. 반면, 리버스-KL은 ‘모드 시킹’ 성향을 가지며, 교사 분포의 주요 모드(의도)에 자신 있게 집중하면서도 일정 수준의 확률적 다양성을 유지합니다. 이를 통해 학생 정책은 교사의 인식적 불확실성을 걸러내고 핵심적인 고품질 행동에 초점을 맞춰 안정적으로 학습할 수 있습니다. 이 프레임워크는 계산 비용이 많이 드는 RL 탐색 과정을 학생 정책 최적화로부터 분리시켜, 기존에 훈련된 고성능 전문가(태스크별 정책, 오픈소스 체크포인트 등)의 지식을 매우 효율적으로 일반ist 학생 백본으로 전이할 수 있는 경로를 제시합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기