시각 언어 모델을 활용한 사전학습 로봇 정책 조정 VLS

시각 언어 모델을 활용한 사전학습 로봇 정책 조정 VLS
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VLS는 사전학습된 확산·플로우‑매칭 로봇 정책을 파라미터를 고정한 채 테스트 시점에 시각‑언어 모델이 생성한 차별가능 보상 함수를 이용해 행동 샘플링을 유도함으로써, 관찰·명령의 OOD 변화에 대한 즉각적인 적응을 가능하게 한다. 시뮬레이션(CALVIN, LIBERO‑PRO)과 실제 프랑카 로봇 실험에서 기존 스티어링 기법 대비 성공률을 크게 향상시켰다.

상세 분석

본 논문은 사전학습된 로봇 정책이 훈련 시의 공간·언어 구성을 강하게 의존해 OOD 상황에서 급격히 성능이 저하되는 문제를 지적한다. 기존 해결책은 재학습이나 파인튜닝으로, 이는 데이터 수집·연산 비용이 크고 근본적으로 “기술 자체가 부족한 것”이 아니라 “기존 기술을 새로운 상황에 맞게 제어하는 메커니즘이 부족한 것”이라는 점을 간과한다. VLS는 이러한 한계를 넘어, 정책 자체는 고정하고 inference‑time에 행동 샘플링을 조정한다는 점에서 혁신적이다. 핵심 아이디어는 두 단계로 구성된다. 첫째, 시각‑언어 모델(VLM)을 이용해 OOD 관찰‑명령 쌍을 3D 키포인트 집합으로 grounding하고, 이를 기반으로 단계별 프로그래밍 가능한 차별가능 보상 함수를 자동 생성한다. 여기서 SAM과 DINOv2를 결합해 객체 마스크와 풍부한 시각 특징을 추출하고, 깊이 정보를 활용해 물리적 좌표와 결합함으로써 실제 로봇 환경에 맞는 기하학적 제약을 정량화한다. 둘째, 생성된 보상 R을 행동 샘플 a에 대해 미분 가능하게 만든 뒤, ∇ₐR을 확산·플로우‑매칭의 denoising 과정에 직접 삽입한다. 구체적으로는 기존 노이즈 예측 ϵ에 λ·g(·)를 빼거나, 플로우‑매칭의 속도장 v에 λ·g(·)를 더하는 형태로, 가이드 스케일 λ를 조절해 원본 정책의 다양성을 유지하면서도 목표 제약을 강하게 반영한다. 또한, 다단계 작업을 위해 실행 피드백을 이용해 단계 전환 시점과 가이드 강도를 동적으로 조절한다는 점이 실시간 로봇 제어에 적합하도록 설계되었다.

실험에서는 CALVIN과 LIBERO‑PRO 두 대규모 시뮬레이션 벤치마크에서 VLS가 기존 ITPS, DynaGuide, V‑GPS 등과 비교해 각각 31%, 13% 이상의 절대 성공률 향상을 기록했다. 특히, 물체 배치 변화, 지원면 이동, 경미한 잡동사니 등 다양한 공간 변형과 명령 변형에 대해 강인함을 보였다. 실제 프랑카 로봇 실험에서는 물체 외관 변화, 위치 이동, 목표 교체 등 실세계 OOD 상황에서도 안정적으로 작업을 수행했으며, 정책 파라미터를 전혀 수정하지 않았음에도 불구하고 기존 정책 대비 충돌 회피와 정확도가 현저히 개선되었다.

VLS의 장점은 (1) 사전학습 정책을 그대로 활용해 데이터 효율성을 극대화하고, (2) VLM 기반 보상 생성이 완전 자동화돼 인간 개입 없이도 복잡한 시맨틱·기하학적 제약을 해석한다는 점이다. 반면, VLM의 추론 비용과 보상 함수 설계에 따른 프롬프트 엔지니어링이 시스템 지연에 영향을 줄 수 있다는 한계도 존재한다. 또한, 현재는 3D 키포인트 기반 제약에 초점을 맞추었으므로, 연속적인 힘·토크 제약이나 동적 물체와의 상호작용 같은 고차원 제약을 다루기 위해서는 추가 연구가 필요하다. 전반적으로 VLS는 “정책 재학습이 아닌 정책 재조정”이라는 새로운 패러다임을 제시하며, 로봇 제어와 대형 멀티모달 모델의 결합 가능성을 크게 확장한다.


댓글 및 학술 토론

Loading comments...

의견 남기기