정책 반복을 위한 가우시안 혼합 모델 Q함수
초록
본 논문은 가우시안 혼합 모델(GMM)을 확률밀도 추정기가 아닌 Q‑함수 손실의 직접적인 근사기로 활용한다. GMM‑QF는 고정된 혼합 가중치·평균·공분산 파라미터만으로도 넓은 함수 클래스에 대해 보편적 근사성을 갖는다. 이를 벨먼 잔차(Bellman residual) 형태의 손실에 삽입하고, 파라미터 공간을 리만 다양체로 간주해 리만 최적화 기법으로 학습한다. 경험 재플레이 버퍼 없이도 정책 평가 단계에서 경쟁력 있는 성능을 보이며, 딥러닝 기반 방법보다 파라미터 수와 계산량이 크게 감소한다.
상세 분석
이 논문은 기존 강화학습(RL)에서 GMM이 확률밀도 함수(p = p(Q|s,a))를 모델링하는 데 쓰이던 전통적인 용도를 탈피한다. 저자들은 GMM을 직접 Q‑함수 Q(z)≈ ∑_{k=1}^K π_k 𝒩(z; μ_k, Σ_k) 형태의 파라메트릭 근사기로 정의하고, 이를 “GMM‑QF”라 명명한다. 핵심 이론적 기여는 두 가지다. 첫째, Theorem 3을 통해 GMM‑QF가 연속적이고 제한된 정의역을 갖는 거의 모든 실함수에 대해 임의의 ε‑정밀도로 근사할 수 있음을 증명함으로써 보편적 근사자(universal approximator)임을 입증한다. 이는 기존 커널 기반 방법이 데이터 수에 비례해 파라미터가 늘어나는 비점근적(non‑parametric) 특성과 대비된다. 둘째, GMM 파라미터(π_k, μ_k, Σ_k)를 리만 다양체(특히 확률 simplex와 양정정(positive‑definite) 행렬 공간)의 곱으로 모델링하고, Riemannian gradient descent 혹은 Riemannian trust‑region 방법을 적용해 벨먼 잔차 최소화 문제를 직접 최적화한다. 이 접근법은 파라미터가 고정된 상태에서 데이터 샘플이 증가해도 복잡도가 크게 변하지 않으며, 수치적으로 안정적인 수렴 특성을 제공한다.
알고리즘적 측면에서 저자들은 전통적인 정책 반복(Policy Iteration, PI) 프레임워크에 GMM‑QF 기반 정책 평가 단계를 삽입한다. 각 반복 n에서 현재 정책 μ_n에 따라 온‑폴리시 데이터를 D_{μ_n}
댓글 및 학술 토론
Loading comments...
의견 남기기