두시간척도프라임듀얼강화학습프레임워크

두시간척도프라임듀얼강화학습프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경험 재생 버퍼를 이용해 오프‑폴리시 데이터를 활용하면서도 정책 자체가 온‑폴리시 탐색을 유지하도록 설계된 두시간척도 프라임‑듀얼 알고리즘 PGDA‑RL을 제안한다. 정규화된 마코프 결정 과정의 선형계획(LP) 형식을 기반으로, 비동기식 업데이트와 마코프 연쇄 샘플링 하에서도 거의 확실히 최적 가치와 정책으로 수렴함을 증명한다. 강화된 에르고다식 가정 하에서는 마지막 이터레이트에 대해 평균제곱 오차가 $\tilde O(k^{-2/3})$ 수렴한다는 유한시간 보장을 제공한다.

상세 분석

PGDA‑RL은 정규화된 MDP를 LP‑형식으로 표현한 뒤, 라그랑지안의 프라임‑듀얼 구조를 이용해 최소‑최대 게임을 정의한다. 프라임 변수는 가치 함수 $V\in\mathbb R^{|S|}$, 듀얼 변수는 점유 측도 $\rho\ge0$이며, 두 변수는 각각 투사 경사 하강·상승 단계로 업데이트된다. 핵심 설계는 두시간척도(stochastic approximation) 스키마이다. 빠른 시간척도(스텝 사이즈 $\beta_k$)는 듀얼 변수 $\rho_k$를 업데이트하고, 느린 시간척도(스텝 사이즈 $\alpha_k$)는 프라임 변수 $V_k$를 업데이트한다. $\beta_k\gg\alpha_k$이며 $\sum_k\alpha_k=\infty$, $\sum_k\alpha_k^2<\infty$, $\sum_k\beta_k=\infty$, $\sum_k\beta_k^2<\infty$를 만족한다.

경사 추정은 경험 재생 버퍼에서 무작위로 미니배치를 샘플링해 편향된 추정치를 만든다. 이 편향은 두시간척도 구조와 마코프 연쇄의 에르고다식 특성(특히 최소 방문 횟수가 선형적으로 성장한다는 사건 $G_\delta$)을 이용해 제어한다. 논문은 먼저 동기식(생성기 접근) 설정에서 ODE 방법을 통해 거의 확실한 수렴을 보이고, 이를 비동기식, 단일 트래젝터 환경으로 확장한다. 비동기식 업데이트는 최신 $\rho_k$를 이용해 정책 $\pi_{\rho_k}$를 즉시 적용하므로, 탐색 정책이 시간에 따라 변한다. 이때도 마코프 체인의 전이 행렬이 일정하게 $\gamma$‑수축성을 유지한다는 가정 하에, 두 시간척도 SA 이론을 적용해 $\rho_k\to\rho^\star$와 $V_k\to V^\star$를 거의 확실히 보인다.

유한시간 분석에서는 강화된 에르고다식 가정(모든 상태‑행동 쌍이 일정 확률 이상 방문)과 고확률 방문 사건 $G_\delta$를 전제한다. 이때 듀얼 이터레이트의 평균제곱 오차는
\


댓글 및 학술 토론

Loading comments...

의견 남기기