다중충실도 제어변량을 이용한 정책기울기 추정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 고충실도 환경에서 얻은 제한된 데이터와 저충실도 시뮬레이터에서 대량으로 얻은 데이터를 결합해, 편향 없이 분산을 감소시키는 새로운 정책기울기 추정기법인 MFPG(Multi‑Fidelity Policy Gradient)를 제안한다. REINFORCE 알고리즘에 제어변량(control variate) 개념을 적용해 고‑저 충실도 샘플 간 상관관계를 이용함으로써 무작위성은 유지하면서 추정 분산을 크게 낮춘다. 이론적으로는 점근적 수렴과 유한표본 수렴 속도 향상을 증명하고, 로봇 제어 벤치마크에서 저충실도 데이터가 중립·유익하거나 약한 손해를 줄 때 기존 방법보다 일관된 성능 향상을 보이며, 저품질 데이터가 해롭게 될 경우에도 가장 높은 견고성을 유지한다.
상세 분석
MFPG는 전통적인 REINFORCE의 Monte‑Carlo 정책기울기 추정식에 저충실도 시뮬레이션으로부터 얻은 제어변량을 추가한다. 구체적으로 고충실도 환경에서 Nₕ개의 궤적을 수집하고, 저충실도 환경에서 Nₗ≫Nₕ개의 궤적을 수집한다. 저충실도 궤적은 고충실도 궤적과 행동 확률이 높은 상관을 갖도록 샘플링 전략을 설계했으며, 이는 제어변량 c·(∇θ logπθ(aˡ|sˡ)−μ̂) 형태로 구현된다. 여기서 μ̂는 저충실도 데이터의 기대값을 추정한 베이스라인이며, c는 최적의 분산 감소를 위한 스칼라 가중치이다. 이 구조는 고충실도 추정량에 무편향성을 유지하면서, 두 데이터 소스 간 공분산을 활용해 전체 분산을 Var
댓글 및 학술 토론
Loading comments...
의견 남기기