흐름 기반 정책 그라디언트로 로봇 제어 혁신
초록
본 논문은 확률적 행동 분포를 직접 계산하지 않는 흐름 매칭 정책 그라디언트(FPO)를 로봇 제어에 적용한다. 기존 FPO의 불안정성을 개선하기 위해 샘플별 비율 클리핑과 비대칭 신뢰 구역(ASPO)을 도입한 FPO++를 제안한다. 사족보행, 인간형 로봇 모션 트래킹, 조작 작업 등 다양한 과제에서 학습 안정성 및 성능을 크게 향상시켰으며, 시뮬‑실전 전이와 사전 학습 정책의 미세조정에서도 우수한 결과를 보였다.
상세 분석
이 연구는 로봇 제어에서 흔히 사용되는 가우시안 기반 정책 대신, 정규화 흐름(Normalizing Flow) 구조를 활용한 정책을 학습시키는 새로운 방법론을 제시한다. 기존 흐름 기반 정책은 행동 확률밀도를 직접 계산해야 하는데, 이는 고차원 연속 제어 문제에서 계산 비용이 급격히 증가하고, 미분 가능성을 유지하기 어렵다. 이를 해결하고자 저자들은 “Flow Matching Policy Gradient”(FPO)라는 프레임워크를 사용한다. FPO는 조건부 흐름 매칭 손실(CFM)을 이용해 행동 로그우도 차이를 근사하고, PPO와 유사한 클리핑 목표에 삽입한다. 그러나 원 논문에서 제시된 FPO는 복잡한 로봇 환경에서는 비안정적이었다.
FPO++는 두 가지 핵심 개선을 도입한다. 첫째, 기존 FPO가 여러 (τ, ε) 샘플을 평균해 하나의 비율을 만든 뒤 클리핑하는 방식에서, 각 샘플마다 개별 비율을 계산하고 독립적으로 클리핑한다. 이는 “per‑sample ratio clipping”이라 불리며, 다중 업데이트 시 각 샘플에 대한 신뢰 구역을 보다 세밀하게 제어한다. 둘째, 부정적 어드밴티지를 가진 샘플에 대해서는 기존 PPO의 클리핑 대신 “Asymmetric SPO”(ASPO)를 적용한다. SPO는 비율이 신뢰 구역을 벗어날 경우에도 완전히 그래디언트를 차단하지 않고, 비율을 원래 값으로 복귀시키는 부드러운 페널티를 제공한다. 이 비대칭 설계는 행동 확률을 급격히 감소시키는 것을 방지하고, 엔트로피 유지와 KL 발산 안정화에 기여한다.
또한 논문은 “zero‑sampling” 전략을 제안한다. 학습 시에는 노이즈 ε∼N(0,I) 를 이용해 흐름을 따라 탐색하지만, 평가 및 실전 배포 단계에서는 ε=0 으로 초기화해 결정적 행동을 얻는다. 실험 결과, zero‑sampling이 특히 고속 모션 트래킹과 조작 작업에서 성공률을 크게 높였다.
실험에서는 IsaacLab 기반 사족보행(Go2, Spot)과 인간형 로봇(H1, G1) 환경, 그리고 이미지 기반 조작 정책을 대상으로 FPO++와 기존 FPO, DPPO 변형들을 비교하였다. FPO++는 학습 안정성 면에서 기존 방법보다 현저히 우수했으며, 동일한 하이퍼파라미터 설정에서도 로컬 미니멈에 빠지지 않고 지속적인 성능 향상을 보였다. 특히 시뮬‑실전 전이 실험에서 Booster T1과 Unitree G1 로봇에 직접 배포했을 때, 고속 보행과 복합 동작 트래킹이 안정적으로 수행되었다. 미세조정 실험에서는 사전 학습된 이미지‑흐름 정책을 로봇 조작 과제에 적용했으며, zero‑sampling을 사용한 FPO++가 성공률 80% 이상을 달성해 DPPO 기반 방법들을 크게 앞섰다.
이러한 결과는 흐름 기반 정책이 복잡한 로봇 행동 공간을 표현하는 데 충분히 강력함을 보여준다. 특히 비율을 샘플 단위로 클리핑하고, 부정적 어드밴티지에 비대칭 신뢰 구역을 적용하는 설계는 기존 PPO‑계열 알고리즘이 갖는 탐색‑수렴 트레이드오프를 완화한다. 향후 연구에서는 더 높은 차원의 관절 제어, 멀티모달 센서 입력, 그리고 대규모 시뮬레이션 데이터와 결합한 오프라인‑온라인 혼합 학습에 FPO++를 확장할 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기