가치 반복과 함수 근사에서 강화학습 알고리즘의 발산 현상
초록
본 논문은 함수 근사를 사용한 가치 함수 학습 시, 탐욕적 정책(가치 반복) 하에서 주요 강화학습 및 적응 동적 프로그래밍 알고리즘이 발산할 수 있음을 구체적인 예제로 증명한다. 특히 TD(1), Sarsa(1) 및 HDP, DHP, GDHP와 같은 ADP 알고리즘까지 모두 발산 가능함을 보여준다.
상세 분석
이 연구는 강화학습(RL)과 적응 동적 프로그래밍(ADP) 분야에서 가장 널리 사용되는 가치 기반 알고리즘들의 수렴성을 기존 연구와는 다른 관점에서 재검토한다. 기존 수렴 증명은 대부분 고정된 정책, 즉 정책 평가 단계에서만 성립한다. 그러나 실제 제어 시스템에서는 정책이 가치 함수에 의해 계속 갱신되는 가치 반복(value‑iteration) 상황이 흔히 발생한다. 논문은 이때 함수 근사기(특히 4차원 가중치 벡터를 갖는 단순 2차식)를 사용하면, 탐욕적 정책에 의해 선택된 행동이 가치 함수의 기울기에 직접 의존하게 되면서 학습 동역학이 비선형적인 피드백 루프를 형성한다는 점을 강조한다.
핵심은 “값‑기울기(value‑gradient)” 분석이다. 저자는 Q‑함수와 V‑함수의 관계식에서 행동 선택이 ∂π/∂x 를 통해 값‑기울기에 영향을 미치는 구조를 수식(23)‑(24)로 명시하고, 이를 바탕으로 VGL(λ) 알고리즘의 가중치 업데이트를 하나의 동적 시스템으로 전개한다. 이 시스템은 매 업데이트마다 현재 가중치가 다음 단계의 상태와 행동을 결정하고, 그 결과가 다시 가중치 업데이트에 피드백되는 형태다. 논문은 파라미터(학습률 α, 보상 가중치 k, 2차식 계수 c₁, c₂ 등)를 적절히 선택하면 이 동적 시스템이 고정점이 아닌 발산 궤적을 보이게 함을 증명한다.
특히 주목할 점은 TD(1)과 Sarsa(1) 같은 “완전한” λ‑값을 갖는 알고리즘도 탐욕적 정책 하에서는 그라디언트가 정확히 정책에 대한 미분을 포함하게 되므로, 기존에 “λ=1이면 진정한 경사하강”이라는 주장과는 달리 발산이 가능함을 실험적으로 확인했다. 또한 HDP, DHP, GDHP와 같은 ADP 알고리즘은 원래 가치 함수가 완벽히 학습된 경우에만 수렴이 보장되는데, 여기서는 근사 함수의 제한된 표현력 때문에 동일한 발산 현상이 발생한다.
논문은 마지막으로 가치 반복이 정책 반복보다 학습 효율성 측면에서 잠재적 이점을 가질 수 있지만, 함수 근사와 탐욕적 정책이 결합될 때는 수렴 보장이 매우 취약함을 경고한다. 따라서 실무에서는 정책 평가 단계에서의 안정성 검증, 혹은 함수 근사의 구조적 제한(예: 선형 근사, 제한된 파라미터 공간) 등을 고려해야 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기