효율적인 흐름 기반 정책 학습으로 구현 AI 혁신

초록

EfficientFlow는 흐름 매칭에 등변성을 도입해 데이터 효율성을 높이고, 가속도 정규화와 새로운 대리 손실을 통해 샘플링 속도를 크게 향상시킨다. 등변 속도 예측 네트워크와 등방성 가우시안 사전으로 행동 분포의 등변성을 이론적으로 보장하고, 제한된 시연 데이터에서도 로봇 조작 벤치마크에서 경쟁력 있는 성능을 달성한다.

상세 요약

본 논문은 최근 시각‑모터 정책 학습에 흐름 기반 생성 모델을 적용하면서 발생하는 두 가지 핵심 문제, 즉 데이터 비효율성과 추론 시 샘플링 지연을 동시에 해결하고자 한다. 첫 번째 기여는 흐름 매칭(Flow Matching) 프레임워크에 등변성(equivariancy)을 수학적으로 통합한 점이다. 저자는 등방성 가우시안 사전(p = 𝒩(0, I))과 등변성을 만족하는 속도 예측 네트워크 vθ(x, t) ∈ ℝⁿ을 결합하면, 최종 행동 분포 πθ(a|s) 역시 입력 상태 s에 대한 등변성을 유지한다는 정리를 제시한다. 이는 회전·반사·평행 이동 등 변환에 강인한 정책을 만들 수 있음을 의미하며, 특히 제한된 시연 데이터에서 일반화 성능이 크게 향상된다. 두 번째 기여는 샘플링 가속을 위한 가속도 정규화(acceleration regularization) 전략이다. 흐름의 마진 경로(marginal flow trajectory)에서는 가속도 a = d²x/dt²를 직접 계산하기 어렵지만, 저자는 조건부 경로(conditional trajectories)만을 이용해 가속도의 제곱 평균을 근사하는 새로운 대리 손실 L_acc를 도출한다. 이 손실은 기존 흐름 매칭 손실 L_FM과 동시에 최적화될 수 있어, 학습 안정성을 해치지 않으면서도 추론 시 O(1) 단계의 빠른 샘플링을 가능하게 한다. 실험에서는 6가지 로봇 조작 벤치마크(예: Block Stacking, Door Opening, Pick‑Place)에서 데이터 양을 10% 수준으로 축소한 상황에서도 기존 최첨단 흐름 기반 정책(FlowBot, Diffusion Policy)보다 높은 성공률을 기록했으며, 추론 속도는 평균 15배 이상 가속되었다. 특히 등변성 네트워크를 사용하지 않은 대조군은 회전 변환에 취약해 성능 저하가 뚜렷했으며, 가속도 정규화 없이 학습한 모델은 샘플링 단계에서 수렴이 느려 실시간 제어에 부적합했다. 이러한 결과는 등변성 이론과 가속도 정규화가 각각 데이터 효율성과 실행 효율성을 독립적으로, 그리고 상호 보완적으로 향상시킨다는 것을 실증한다. 마지막으로 저자는 현재 제한된 시연 데이터와 고차원 관측(이미지, 깊이) 모두에 적용 가능하도록 확장성을 논의하며, 복합 변환(다중 물체 회전·이동) 상황에서도 등변성 보장을 위한 그룹 이론적 일반화 가능성을 제시한다. 전체적으로 EfficientFlow는 흐름 기반 정책 학습에 대한 이론적 기반을 강화하고, 실용적인 가속화 기법을 도입함으로써 제한된 데이터 환경에서도 고성능, 고속 제어를 구현할 수 있음을 보여준다.

초록

상세 요약

📜 논문 원문 (영문)