가치 그래디언트 기반 강화학습의 지역 최적성 및 정책 그래디언트와의 연결 고찰

본 논문은 연속 상태공간의 결정론적 에피소드 제어 문제에서, 가치 함수 대신 가치 함수의 상태에 대한 그래디언트를 학습하는 가치‑그래디언트 학습(VGL) 방법을 제안한다. VGL은 단일 궤적에 대해 그래디언트만 정확히 학습하면 해당 궤적이 지역 최적(또는 극값)임을 보이며, 전통적인 가치 함수 학습보다 효율적이다. 또한, λ=1인 경우 VGL의 가중치 업데이트가 정책 그래디언트 학습(PGL)과 동일함을 증명해 두 접근법을 이론적으로 연결하고, …

저자: Michael Fairbank, Eduardo Alonso

본 논문은 연속적이고 고차원인 상태공간을 갖는 결정론적 에피소드 제어 문제를 대상으로, 전통적인 가치 함수 학습(Value Learning, VL) 방식의 한계를 지적하고 새로운 접근법인 가치‑그래디언트 학습(Value‑Gradient Learning, VGL)을 제안한다. 1. **문제 정의 및 배경** - 에이전트는 상태 x∈ℝⁿ와 행동 a∈A를 통해 모델 f(x,a)와 보상 r(x,a)로 정의된 환경을 순회한다. - 목표는 총 보상 Σₜ rₜ를 최대화하는 정책 π(x, z) 를 찾는 것이다. - 기존 방법은 최적 가치 함수 V\*(x)를 근사하고, 그 위에서 greedy 정책 π\_g(x)=argmaxₐ

가치 그래디언트 기반 강화학습의 지역 최적성 및 정책 그래디언트와의 연결 고찰

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기