공간 인식 강화 흐름 매칭 기반 비전‑언어‑액션 강화학습
초록
SA‑VLA는 흐름‑매칭 기반 VLA 정책을 강화학습으로 미세조정할 때 손실되는 공간적 편향을 보존한다. 암시적 2D‑시공간 토큰을 시각 토큰과 융합하고, 단계별 밀집 보상을 통해 기하학적 진행을 직접 측정한다. 또한 SCAN이라는 공간‑조건화된 소음 탐색 기법으로 탐색을 기하학에 맞게 조절한다. 실험 결과, 복잡한 다중 물체 및 잡동사니 환경에서 안정적인 미세조정과 제로‑샷 공간 일반화가 크게 향상된다.
상세 분석
본 논문은 최근 로봇 조작 분야에서 주목받는 Vision‑Language‑Action(VLA) 모델, 특히 흐름‑매칭(flow‑matching) 기반 정책이 강화학습(RL) 미세조정 과정에서 공간적 inductive bias가 급격히 약화되는 문제를 정확히 짚어낸다. 흐름‑매칭은 연속적인 고차원 제어를 확률적 미분 방정식 형태로 모델링해 학습 안정성을 제공하지만, 기존 RL 파인튜닝은 희소 보상과 공간에 무관한 탐색으로 인해 단기 시각 단서에 과도히 의존하게 된다. 결과적으로 시점(viewpoint) 변동이나 환경 잡음에 취약한 행동이 발생한다.
SA‑VLA는 세 가지 핵심 설계로 이 문제를 해결한다. 첫째, 공간 토큰 융합 단계에서 다중 뷰 이미지에서 추출한 암시적 3D 구조 정보를 2D 시각 토큰에 교차‑어텐션으로 결합한다. 여기서 학습 가능한 채널‑와이즈 게이트와 잔차 MLP가 공간 신호의 비중을 동적으로 조절해, 초기 RL 업데이트 시 기존 프리트레인된 시각 특징을 보호하면서도 occlusion 상황에서 기하학적 정보를 전달한다. 둘째, 단계별 밀집 보상은 Reach‑Place‑Leave라는 세 단계로 작업을 자동 분할하고, 각 단계에서 end‑effector‑object, object‑goal 간 정규화 거리 변화를 직접 보상으로 사용한다. 이는 보상 신호가 즉각적인 기하학적 진행을 반영하도록 하여, sparse reward에 의한 credit‑assignment 오류를 크게 감소시킨다. 보상은 거리 감소(Reach, Place)와 거리 증가(Leave)를 각각 양의 스칼라로 변환하고, λ 스케일링을 통해 학습 안정성을 조절한다. 셋째, SCAN(Spatially‑Conditioned Annealed Noise) 탐색 전략은 정책의 액션 분포에 공간 임베딩에 기반한 학습된 노이즈 σ_learn(x_t)를 추가하고, 시간에 따라 감소하는 최소 노이즈 σ_min(t)와 결합한다. 이렇게 하면 탐색이 초기에는 넓게 퍼지면서도, 학습이 진행될수록 공간 구조에 맞춰 세밀하게 조정된다. 특히, σ_learn은 시각‑공간 토큰에서 추출된 특징을 입력으로 하여, 복잡한 물체 간 관계가 강한 구역에서는 더 큰 탐색 폭을, 이미 안정된 구역에서는 작은 노이즈를 제공한다.
실험에서는 다중 물체 정렬, 잡동사니가 섞인 테이블 위 물체 옮기기, 그리고 시점 변동이 큰 환경에서 기존 흐름‑매칭 기반 VLA(π₀)와 Rein‑Flow 등 최신 방법들을 비교하였다. SA‑VLA는 성공률, 최종 보상, 그리고 제로‑샷 시점 변동 테스트에서 평균 12‑18% 향상을 기록했다. 특히, 학습 초기에 발생하던 “phase‑inconsistent” 현상이 거의 사라졌으며, 시각‑언어 명령에 대한 공간적 일관성이 유지되는 것을 시각화 결과로 보여준다.
기술적 기여는 다음과 같다. 1) 암시적 3D 구조를 2D 토큰에 효율적으로 주입하는 교차‑어텐션 기반 융합 모듈, 2) 작업 단계에 맞춘 거리 기반 밀집 보상 설계, 3) 공간‑조건화된 소음 탐색으로 흐름‑매칭 정책의 탐색-활용 균형을 최적화한 SCAN. 이 세 요소는 서로 보완적으로 작용해, 기존 RL 파인튜닝이 초래하던 공간 편향 소실을 방지하고, 복잡하고 동적인 로봇 조작 환경에서도 견고한 정책을 학습한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기