가속화된 그래디언트 TD 학습

본 논문은 TD 학습의 데이터 효율성을 유지하면서 계산·저장 비용을 크게 낮추는 가속화된 그래디언트 TD(ATD) 알고리즘을 제안한다. 저랭크 근사와 정규화를 이용해 2차 정보(헤시안 역행렬)를 효율적으로 추정하고, 기대 업데이트가 TD 고정점에 수렴함을 증명한다. 실험 결과는 ATD가 LSTD와 유사한 샘플 효율성을 보이며, 단계 크기와 랭크 파라미터에 대한 민감도가 낮고, 편향이 없음을 확인한다.

저자: Yangchen Pan, Adam White, Martha White

본 논문은 강화학습에서 정책 평가 단계의 핵심 문제인 가치 함수 근사를 다루며, 기존 방법들의 장단점을 종합적으로 분석한다. 전통적인 TD(λ)와 Gradient TD 계열은 O(d)의 계산·메모리 복잡도로 대규모 특성 공간에서도 실시간 학습이 가능하지만, 샘플 효율성이 낮고 학습률(step‑size) 튜닝에 매우 민감하다. 반면, LSTD(λ)와 같은 최소제곱 기반 방법은 MSPBE를 직접 최소화함으로써 데이터 효율성을 크게 높이고 학습률에 대한 의존성을 없애지만, A와 b를 축적하고 역행렬을 계산해야 하므로 O(d²) 비용과 저장이 필요해 실용성이 제한된다. 이러한 격차를 메우기 위해 최근 iLSTD, tLSTD, 랜덤 프로젝션 기반 LSTD 등 서브쿼드라틱 방법들이 제안되었지만, 근사 행렬의 랭크나 차원 축소 파라미터에 따라 편향이 발생하거나 파라미터 민감도가 여전히 존재한다. 논문은 이러한 문제점을 해결하고자 “Accelerated Gradient Temporal Difference Learning”(ATD)이라는 새로운 알고리즘군을 제안한다. 핵심 아이디어는 MSPBE의 2차 최적화 형태를 이용해 헤시안 \(H = A^{\top}C^{-1}A\) 의 역행렬을 직접 구하는 대신, 저랭크 근사 \(\hat A\) 를 유지하고 그 의사역행렬 \(\hat A^{\dagger}\) 를 프리컨디셔너로 활용하는 것이다. 구체적인 업데이트 식은 \

가속화된 그래디언트 TD 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기