엔트로피 정규화 MDP를 위한 미러 디센트 액터 크리틱: 안정성 및 수렴 분석

엔트로피 정규화 MDP를 위한 미러 디센트 액터 크리틱: 안정성 및 수렴 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 폴란(Polish) 상태·행동 공간을 갖는 엔트로피 정규화 마코프 결정 과정(MDP)에서, 정책 미러 디센트와 템포럴 차이(TD) 학습을 결합한 액터-크리틱 알고리즘의 안정성과 수렴을 이론적으로 보장한다. 단일 루프와 다중 TD 스텝을 이용한 이중 루프 구조를 제안하고, KL 발산의 유계성, 단계 크기 조건, 그리고 TD 스텝 수에 대한 명시적 하한을 제시한다. 또한, TD 스텝 수가 로그 성장하면 서브선형, 선형 성장하면 선형 수렴을 얻으며, 이는 집중 가능성(concentrability) 가정 하에서 증명된다.

상세 분석

이 논문은 엔트로피 정규화가 적용된 MDP에서 정책 업데이트를 KL‑패널티 기반 미러 디센트 형태로 수행하고, 가치 함수 근사를 위해 TD(0) 방식의 반그라디언트를 사용한다는 점에서 기존 정책 그라디언트·TRPO·PPO 계열과 차별화된다. 저자는 먼저 폴란 공간에서 정의된 admissible policy 집합 Π_µ 를 도입하고, 정규화된 가치 함수 V^τ_π와 상태‑행동 가치 Q^τ_π, 그리고 소프트 어드밴티지 A^τ_π 를 명시한다. 정책 미러 디센트는 목적함수 G(π,π′)=∫_S∫A A^τ{π′}(s,a)π(da|s)+ (1/λ)KL(π‖π′) dπ′ρ(ds) 를 최소화하는 형태이며, 정확한 어드밴티지를 사용할 경우 기존 연구


댓글 및 학술 토론

Loading comments...

의견 남기기