동작‑대‑동작 흐름 매칭을 통한 초고속 로봇 정책

동작‑대‑동작 흐름 매칭을 통한 초고속 로봇 정책
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

A2A는 이전 행동 시퀀스를 고차원 잠재공간에 매핑해 초기값으로 사용하고, 흐름 매칭으로 미래 행동을 직접 변환한다. 이를 통해 수십 단계의 확산 디노이징 없이 단일 단계(0.56 ms) 추론이 가능해 실시간 제어에 적합하며, 학습 효율·시각 교란 강인성·미지 환경 일반화에서도 기존 확산·회귀 기반 방법들을 크게 앞선다.

상세 분석

본 논문은 로봇 제어에서 “노이즈‑투‑액션” 방식의 근본적인 한계를 짚고, “액션‑투‑액션” 초기화라는 새로운 패러다임을 제시한다. 기존 확산 정책은 무작위 가우시안 노이즈를 시작점으로 삼아 다수의 반복 디노이징 과정을 거쳐야 하므로, 실시간 제어에 필수적인 저지연 요구를 충족시키기 어렵다. A2A는 proprioceptive(자세·관절) 피드백을 정적인 조건이 아니라, 연속적인 히스토리 시퀀스로 활용한다. 구체적으로, 과거 n개의 행동을 CNN‑기반 오토인코더(Eₐ, Dₐ)를 통해 고차원 잠재벡터 z₀에 압축하고, 시각 입력은 ResNet‑18+MLP로 전역 조건 c를 만든다. 이후 AdaLN‑MLP 블록으로 구성된 흐름 네트워크 fθ가 시간‑의존 벡터 필드 vτ를 학습해 ODE d zτ /dτ = vτ(zτ) 를 근사한다. 흐름 매칭 손실 L_FM은 임의 τ∈


댓글 및 학술 토론

Loading comments...

의견 남기기