쉬운 단조 정책 반복

본 논문은 기존 정책 개선 경계에서 사용되던 최댓값 기반 발산 페널티를 평균 발산으로 대체한 새로운 경계식을 제시하고, 이를 이용해 정책 성능이 절대 감소하지 않도록 보장하는 Easy Monotonic Policy Iteration(EMPI) 알고리즘을 제안한다. EMPI는 샘플 기반 구현이 간단하며, 함수 근사(특히 딥 뉴럴 네트워크) 환경에서도 이론적 단조성을 유지한다.

저자: Joshua Achiam

본 논문은 강화학습에서 일반적인 함수 근사(특히 딥 뉴럴 네트워크)를 사용한 정책 최적화 과정에서 발생할 수 있는 정책 성능 악화를 방지하고, 이론적으로 보장된 단조성을 제공하는 새로운 알고리즘, Easy Monotonic Policy Iteration(EMPI)을 제안한다. 1. **배경 및 문제 정의** - 기존의 정책 반복 방법(CPI, TRPO 등)은 정책 개선을 보장하기 위해 정책 간 차이에 대한 상한을 사용한다. 이때 사용되는 발산 페널티는 보통 상태별 최대 총변동거리(D_TV) 혹은 sup‑norm 형태이며, 이는 상태 공간이 크거나 모델이 알려지지 않은 경우 실제로 계산하거나 미분하기가 어려워 실용성이 떨어진다. - 특히 TRPO는 KL‑제약을 평균 발산으로 근사했지만, 이 역시 최악 상황에 대한 보수적인 가정이 필요하고, 하이퍼파라미터 선택에 민감하다. 2. **주요 이론적 기여** - **미래 상태 방문 분포 dπ**를 행렬식 형태로 정의하고, 두 정책 π와 π′ 사이의 차이를 역전이 행렬 G와 G¯로 표현한다. 이를 통해 dπ′−dπ = γ · G¯ Δ dπ (식 5) 를 얻는다. - **Lemma 3**에서 L1 노름 차이 ‖dπ′−dπ‖₁ 를 평균적인 정책 차이로 상한한다: ‖dπ′−dπ‖₁ ≤ 2γ/(1−γ) · E_{s∼dπ}

쉬운 단조 정책 반복

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기