액션 환각을 넘어: 생성형 비전‑언어‑액션 모델의 구조적 한계와 해결 방안
초록
본 논문은 로봇 기반 생성형 비전‑언어‑액션(VLA) 모델이 물리적 제약을 위반하는 “액션 환각”을 일으키는 구조적 원인을 분석한다. 위상·정밀·시간( horizon)이라는 세 가지 장벽을 이론적으로 정리하고, 연속 잠재 공간과 연속 디코더가 다중 모드(예: 좌·우 경로)와 정밀 접촉 작업을 표현할 때 불가피하게 발생하는 오류 확률을 정량화한다. 또한 검증 기반 장기 계획에서의 오류 전파와 검증 노이즈의 영향을 살펴보고, 하이브리드 모드 선택, 반복 정제, 적응형 검증 탐색 등 실용적인 설계 지침을 제시한다.
상세 분석
논문은 먼저 로봇 환경을 (S, A, T, C_safe) 로 정의하고, VLA 모델을 “잠재‑헤드 정책” πθ(s, z) 로 형식화한다. 여기서 z∈Z는 연속적이고 경로‑연결된 잠재 공간이며, πθ는 잠재 변수에 대해 연속성을 갖는다. 이러한 가정은 현재 대부분의 diffusion, flow‑matching, conditional flow 기반 정책이 실제로 구현하는 구조와 일치한다.
1. 위상 장벽 (Topological Barrier)
Assumption 9에 따라 특정 상태 s에서 안전 행동 집합 A_safe(s) 가 두 개 이상의 서로 떨어진 연결 성분 U_L, U_R 로 나뉘고, 그 사이에 열린 금지 영역 A_forb(s) 가 존재한다면, 연속적인 잠재‑액션 매핑은 반드시 “시임(seam)” 집합 Z_seam(s) 를 만들어낸다. Lemma 10은 Z_seam(s) 가 비어 있지 않으며, 잠재 변수의 확률 밀도 ρ_Z가 전역적으로 양수이므로 H_θ(s)=Pr_{z∼p_Z}
댓글 및 학술 토론
Loading comments...
의견 남기기