TD 학습을 위한 λ 파라미터 자동 적응 탐욕적 접근

본 논문은 강화학습에서 TD(λ) 알고리즘의 핵심 파라미터인 트레이스 감쇠 파라미터 λ 를 상태별로 온라인에 적응시키는 새로운 메타‑러닝 기법을 제안한다. 서론에서는 강화학습 시스템이 실제 적용될 때 파라미터 민감도가 큰 장애물임을 강조하고, 특히 λ 가 학습 속도와 안정성에 미치는 영향을 설명한다. 기존 연구들은 λ 를 고정값으로 두거나, 배치 방식·모델 기반 접근을 통해 최적화했지만, 이는 함수 근사, 온라인 처리, 오프‑정책 상황에서 적용이 어려웠다. 배경 섹션에서는 MDP 정의, 상태 기반 할인 γ(s) 와 λ(s) 의 일반화, 그리고 GTD(λ) 알고리즘의 업데이트 식을 제시한다. 여기서 중요도 샘플링 비율 ρ_t 를 통해 온‑정책·오프‑정책을 동시에 다룰 수 있음을 언급한다. 핵심 기여는 “λ 적응을 위한 목표 함수”이다. 저자들은 현재 시점 t에서 λ_{t+1} 를 선택할 때, 미래에는 λ=1(즉, 무편향 MC 반환) 로 전환된다고 가정하고, 현재 단계에서의 추정 ˆG_t 와 실제 MC 반환 G_t 사이의 평균제곱오차(MSE)를 최소화한다. MSE 를 편향 제곱항과 분산 항으로 분해하고, 각각을 λ_{t+1} 에 대한 함수로 전개한다. 편향 항은 현재 가치 추정 w와 MC 반환 사이의 차이 err(w_t, x_{t+1}) 로 표현되며, 분산 항은 보상 노이즈 σ_r(x_t, x_{t+1}) 와 λ_{t+1}² 에 비례한다. 미분 후 0 으로 두어 최적 λ_{t+1} 를 구하면 다음과 같은 닫힌식이 얻어진다: λ_{t+1}^{*}= \frac{ρ_t γ_{t+1} err(w_t,x_{t+1})}{ρ_t γ_{t+1} err(w_t,x_{t+1}) + σ_r(x_t,x_{t+1})}. 이 식은 λ 를 현재 관측값만으로 즉시 계산할 수 있게 해준다. 알고리즘 설계에서는 GTD(λ) 의 기존 업데이트에 λ‑greedy 를 삽입한다. 구체적인 절차는: (1) 현재 보상 R_{t+1}, 다음 상태 특징 x_{t+1}, 중요도 비율 ρ_t, 할인 γ_{t+1} 을 관측, (2) 온라인 평균과 분산 추정기를 사용해 err 와 σ_r 를 업데이트, (3) 위 닫힌식으로 λ_{t+1} 를 계산하고 클리핑하여

TD 학습을 위한 λ 파라미터 자동 적응 탐욕적 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기