재매개변수화 근접 정책 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 차분 가능한 동역학을 활용한 Reparameterization Policy Gradient(RPG)의 샘플 효율성을 유지하면서, 계산 비용이 큰 동역학 Jacobian을 재활용하고 학습 불안정을 완화하기 위한 새로운 프레임워크인 Reparameterization Proximal Policy Optimization(RPO)를 제안한다. RPO는 샘플 재사용 시 RPG가 PPO‑style surrogate objective를 최적화한다는 사실을 이용해 온‑오프 정책 업데이트를 통합하고, RPG 특성에 맞춘 클리핑 정책 그라디언트와 명시적 KL 정규화를 도입해 안정성을 확보한다. 실험 결과, 다양한 로봇 제어 및 조작 과제에서 기존 방법들을 능가하거나 동등한 수준의 성능을 달성한다.
상세 분석
RPG는 행동을 가우시안 정책으로 샘플링하고, 재매개변수화 트릭을 통해 행동‑노이즈 ϵ와 정책 파라미터 θ를 연결함으로써 전체 트래젝터리를 미분 가능하게 만든다. 이때 동역학 g(s,a)의 Jacobian ∂s′/∂a와 ∂s′/∂s를 계산해야 하는데, 이는 고비용 연산이다. 기존 온‑폴리시 방법은 한 번의 업데이트 후에 이 Jacobian을 버리기 때문에 계산 자원을 낭비한다. 논문은 이러한 Jacobian을 “샘플 재사용”이라는 형태로 재활용함으로써 샘플 효율성을 크게 향상시킬 수 있음을 보인다. 핵심은 샘플 재사용이 PPO‑style surrogate objective Lπθold(θ)=E_{s∼dπθold,ϵ∼N}
댓글 및 학술 토론
Loading comments...
의견 남기기