정책 경사와 Q학습의 결합

본 논문은 엔트로피 정규화를 적용한 정책 경사법의 고정점에서 정책과 Q‑값 사이에 존재하는 수학적 관계를 이용한다. 이 관계를 통해 현재 정책으로부터 Q‑값을 추정하고, 오프‑폴리시 경험을 담은 리플레이 버퍼를 활용해 Q‑학습 업데이트를 수행한다. 제안된 PGQL(Policy Gradient + Q‑Learning) 알고리즘은 기존의 순수 정책 경사(A3C)와 순수 Q‑학습(DQN)보다 데이터 효율성과 학습 안정성이 향상되었으며, Atari 2…

저자: Brendan ODonoghue, Remi Munos, Koray Kavukcuoglu

본 논문은 강화학습에서 널리 사용되는 두 가지 패러다임, 즉 정책 경사법(policy gradient)과 행동‑가치 함수 기반 Q‑학습을 효과적으로 결합하는 새로운 방법론을 제시한다. 기존의 정책 경사법은 온‑폴리시(on‑policy) 특성 때문에 현재 정책이 생성한 데이터만을 활용할 수 있어 데이터 효율성이 낮은 반면, Q‑학습은 오프‑폴리시(off‑policy) 특성으로 과거 경험을 재활용할 수 있지만 정책 자체를 직접 최적화하지 못한다는 한계가 있다. 이를 극복하고자 저자들은 엔트로피 정규화를 포함한 정책 경사 업데이트의 고정점에서 정책과 Q‑값 사이에 존재하는 수학적 관계를 발견한다. ### 1. 정규화된 정책 경사의 고정점 분석 정책 경사 업데이트에 엔트로피 정규화 항 α H(π) 를 추가하면, 파라미터 θ에 대한 업데이트는 식 (2)와 같이 표현된다. 고정점에서는 파라미터가 더 이상 변화하지 않으므로 ∇θJ = 0이 된다. 라그랑주 승수 λₛ를 도입해 확률 합 제약을 고려하면, 다음과 같은 조건식이 도출된다: Eₛ,ₐ

정책 경사와 Q학습의 결합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기