단일 단계 평균 흐름 정책과 방향 정렬을 통한 실시간 로봇 조작

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로봇 조작에 적용 가능한 단일 단계 평균 흐름(MeanFlow) 기반 정책인 OMP를 제안한다. 저자들은 평균 흐름이 갖는 스펙트럼 바이어스와 저속 구간에서의 그래디언트 소진 문제를 분석하고, 예측된 속도와 실제 평균 속도를 명시적으로 정렬하는 ‘방향 정렬’ 메커니즘과, 메모리 효율을 높이는 유한 차분 기반 Jacobian‑Vector Product 근사인 ‘Differential Derivation Equation(DDE)’을 도입한다. 실험 결과, Adroit와 Meta‑World 벤치마크에서 기존 최첨단 방법들을 능가하면서도 1 step 추론 속도를 유지한다.

상세 분석

OMP는 기존 MeanFlow 패러다임이 로봇 제어에 직면한 세 가지 근본적인 한계를 해결한다. 첫째, 평균 흐름은 시간 적분 연산으로 인해 고주파 성분을 1/ω² 비율로 억제하는 스펙트럼 바이어스를 내재한다. 이는 정밀한 미세 움직임을 요구하는 작업에서 중요한 고주파 신호가 손실되어, 정책이 거친 궤적만을 학습하게 만든다. 저자들은 푸리에 변환을 통해 이 현상을 수식적으로 증명하고, 합성 사인파 실험으로 실증하였다. 둘째, 저속 구간에서는 목표 평균 속도의 크기가 매우 작아 손실 함수의 기울기가 거의 0에 가까워지는 ‘그래디언트 스타베이션’ 현상이 발생한다. 이는 학습 초기에 파라미터가 올바른 방향으로 업데이트되지 못하고, 수렴이 지연되거나 지역 최소점에 머무르는 원인이 된다. 셋째, 기존 MeanFlow 구현은 정확한 Jacobian‑Vector Product(JVP)를 계산하기 위해 자동 미분의 이중 역전파를 사용하므로, 텐서 차원이 커질수록 메모리 사용량이 O(N)으로 급증한다. 이는 대규모 백본(예: 트랜스포머) 학습을 제한한다. OMP는 이러한 문제를 두 가지 핵심 기법으로 해소한다. ‘방향 정렬(Directional Alignment)’은 예측된 평균 속도 û와 실제 평균 속도 v̂ 사이의 코사인 유사도를 손실에 추가함으로써, 크기와 무관하게 방향만을 정확히 맞추도록 강제한다. 이는 스펙트럼 바이어스가 만든 저주파 중심의 손실을 보완하고, 저속 구간에서도 충분한 방향성 그래디언트를 제공한다. ‘Differential Derivation Equation(DDE)’은 JVP를 유한 차분(Δ) 방식으로 근사한다. 구체적으로, ∂f/∂x·v ≈

단일 단계 평균 흐름 정책과 방향 정렬을 통한 실시간 로봇 조작

초록

상세 분석

댓글 및 학술 토론

의견 남기기