진행도 인식 기반 확산 정책 로봇 조작

** ProgressVLA는 로봇 조작을 위한 비전‑언어‑액션 모델에 ‘작업 진행도’를 명시적으로 추정하고, 이를 확산 기반 정책의 샘플링 과정에 미분 가능한 형태로 통합한다. 대규모 비지도 로봇 비디오‑텍스트 데이터로 사전 학습한 진행도 추정기는 시뮬레이션에서 0.07의 평균 절대 오차를 기록하고, 실제 로봇에서도 제로‑샷으로 일반화한다. 역동역 모델을 이용해 후보 행동 토큰을 미래 시각 잠재 상태로 투사하고, 진행도 점수를 역전파해 행동…

저자: Hongyu Yan, Qiwei Li, Jiaolong Yang

** 본 논문은 로봇 조작을 위한 비전‑언어‑액션(VLA) 모델이 장기 목표 달성에 필요한 ‘진행도 인식(progress awareness)’을 결여하고 있다는 문제점을 제기한다. 기존 방법들은 주로 손으로 만든 종료 히스토리나 단순 성공/실패 이진 분류기에 의존해 작업이 끝났는지를 판단한다. 이러한 접근은 복합적인 하위 목표가 연속되는 장기 조작에서 불안정하고 비효율적이다. 이를 해결하기 위해 저자들은 **ProgressVLA**라는 새로운 프레임워크를 설계했으며, 두 핵심 구성 요소인 **진행도 추정기(progress estimator)**와 **진행도‑가이드 확산 정책(progress‑guided diffusion policy)**를 제안한다. 1. **진행도 추정기** - **데이터와 사전 학습**: Open X‑Embodiment(OXE)와 같은 대규모 로봇 비디오‑텍스트 데이터셋을 활용해 비지도 사전 학습을 수행한다. 언어 명령(l), 초기 관찰(o₀), 현재 관찰(o_t)을 입력으로 받아 정규화된 진행도 p∈

진행도 인식 기반 확산 정책 로봇 조작

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기