다중연쇄 평균보상 MDP 정책기울기 정리와 알파클리핑 거울상승
본 논문은 평균보상 기준의 다중연쇄(Multichain) 마코프 결정 과정에서 정책기울기 정리를 최초로 확립하고, 재발·과도 상태 방문 측도를 도입한다. 이를 기반으로 α‑클리핑 정책 거울상승(Policy Mirror Ascent) 알고리즘을 설계해 양의 정책 집합 내에서 ε‑최적 정책을 획득하는 수렴 및 샘플 복잡도 결과를 제시한다.
저자: Jongmin Lee, Ernest K. Ryu
논문은 평균보상 마코프 결정 과정(MDP)에서 정책기울기 방법을 연구한다. 기존 연구는 주로 할인 보상 혹은 평균보상의 ergodic·unichain 경우에 국한돼 있었으며, 다중연쇄(multichain) 구조에 대한 일반적인 정책기울기 정리는 부재했다. 저자는 이러한 공백을 메우기 위해 다음과 같은 일련의 이론적·알고리즘적 기여를 제시한다.
첫 번째로, 모든 내부 정책 Π⁺(즉, 모든 상태·행동 쌍에 양의 확률을 부여하는 정책)에서 상태의 재발·과도 구분이 변하지 않는다는 사실(Fact 1)을 증명한다. 이는 전이 행렬 Pπ를 재발 블록 Rπ_i와 과도 블록 Tπ로 분해하고, Cesàro 한계 Pπ*를 이용해 각 블록의 고유 stationary distribution을 정의함으로써 가능해진다. 이 불변성을 바탕으로, 재발 방문 측도 dπ와 과도 방문 측도 δπ를 각각 다음과 같이 정의한다.
- dπ_s₀(s)=lim_{H→∞} (1/H)∑_{h=0}^{H-1}Pr(s_h=s|s₀,Pπ)=e_{s₀}ᵀPπ*e_s,
- δπ_s₀(s)=∑_{h=0}^{∞}Pr(s_h=s|s₀, T̄π)=e_{s₀}ᵀ(I−T̄π)^{-1}e_s.
여기서 T̄π는 과도 상태만을 포함하는 전이 행렬이며, 스펙트럼 반경이 1보다 작아 (I−T̄π)^{-1}가 존재한다는 점이 핵심이다.
두 번째로, 위 두 방문 측도를 이용해 성능 차이식(Lemma 3)을 도출한다. 이는 두 정책 π,π′에 대해 평균보상 차이 Jπ_μ−Jπ′_μ를 재발 상태에 대한 dπ와 Q‑값, 과도 상태에 대한 δπ와 K‑값의 선형 결합으로 표현한다. 이 식은 unichain 경우 K‑값이 상수이므로 두 번째 항이 사라지는 기존 결과를 일반화한다.
세 번째로, 위 차이식을 미분해 정책기울기 정리(Theorem 5)를 얻는다. 정리에서는 ∇_θ Jπ_θ_μ = Σ_{s∈R} Σ_a dπ_θ_μ(s) ∇_θ π_θ(a|s) Qπ_θ(s,a) + Σ_{s∈T} Σ_a δπ_θ_μ(s) ∇_θ π_θ(a|s) Kπ_θ(s,a) 로 나타난다. 이는 정책 파라미터가 재발·과도 두 영역에서 각각 다른 보상 신호에 의해 업데이트됨을 의미한다.
네 번째로, 이론적 기반 위에 α‑클리핑 정책 거울상승(α‑clipped Policy Mirror Ascent) 알고리즘을 설계한다. 직접 파라미터화 π_θ(a|s)=θ_{s,a} (θ_{s,·}는 확률분포)와 Bregman 발산 D(p,p′)를 이용해 다음과 같은 업데이트를 수행한다.
θ_{k+1} = argmin_{θ∈Π⁺} { ⟨∇_θ Jπ_k, θ−θ_k⟩ + (1/η) D(θ,θ_k) },
그 후 모든 θ_{k+1}(a|s)를 α와 1−α·|A| 사이로 클리핑하여 Π⁺ 내부에 머무르게 한다. 이 과정은 정책이 영 확률을 갖지 않도록 보장하고, 수렴 분석에 필요한 강한 볼록성 및 Lipschitz 연속성을 확보한다.
수렴 분석에서는 탭ular 환경과 생성 모델(generative model) 두 경우를 다룬다. 탭ular 경우, 정책 파라미터 공간이 유한 차원임을 이용해 표준 마르코프 체인 수렴 이론을 적용하고, 샘플 복잡도 O( (|S||A|)/ε² ) 수준에서 ε‑최적 정책을 얻는다. 생성 모델에서는 각 단계에서 (s,a) 쌍을 직접 샘플링할 수 있다고 가정하고, 동일한 오더의 샘플 복잡도를 유지한다. 중요한 점은 최적성 기준이 J*⁺,μ (양의 정책 집합 내의 최적 평균보상)이며, J*⁺,μ ≥ J* (전체 정책 집합 최적)임을 명시한다. 따라서 알고리즘이 제공하는 ε‑보장은 양의 정책 집합 내에서의 최적성이다.
마지막으로, 논문은 기존 연구와의 차별점을 정리한다. (1) 다중연쇄 MDP에 대한 정책기울기 정리를 최초로 제시, (2) 재발·과도 방문 측도를 도입해 성능 차이와 기울기를 정확히 분해, (3) α‑클리핑을 통한 정책의 양성 유지와 수렴 보장을 결합, (4) 탭ular 및 생성 모델 모두에 대한 샘플 복잡도 이론을 제공한다. 이러한 결과는 평균보상 설정에서 정책 기반 강화학습을 다중연쇄 환경에 적용하고자 하는 연구자들에게 중요한 이론적 토대를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기