다단계 Lyapunov을 활용한 편향 SA의 유한시간 수렴 분석
초록
본 논문은 마코프 잡음에 대한 완화된 “ergodic‑like” 가정을 전제로, 다단계 Lyapunov 함수를 설계해 편향된 확률 근사(SA) 알고리즘의 유한시간 평균제곱오차(MSE) 경계를 제공한다. 결과는 상수 학습률 하에서 TD(0)와 Q‑learning(선형 근사) 모두에 적용 가능하며, 비선형 근사, 일반적인 마코프 혼합, 초기 분포에 무관한 첫 번째 유한시간 오류 한계를 제시한다.
상세 분석
논문은 먼저 일반적인 확률 근사 형태 Θ_{k+1}=Θ_k+ε f(Θ_k,X_k) 를 고려한다. 여기서 f는 θ에 대해 전역 Lipschitz(L)이며, ‖f(θ,x)‖≤L(‖θ‖+1) 를 만족한다(Assumption 1). ODE \dotθ=f(θ) 의 안정성을 보장하기 위해 두 번 미분 가능한 Lyapunov 함수 W(θ) 를 도입하고, (6a‑c) 조건을 통해 W가 θ=0을 전역 안정점으로 갖는 것을 가정한다(Assumption 2).
핵심은 잡음 시퀀스 {X_k} 에 대한 새로운 “ergodic‑like” 가정(Assumption 3)이다. 이는 T개의 연속적인 그래디언트 추정 평균이 제한된 편향 σ(T;k)·L(‖θ‖+1) 이하로 수렴한다는 것으로, i.i.d., 유한 상태 마코프 체인, Ornstein‑Uhlenbeck 등 광범위한 프로세스에 적용된다. 기존 연구는 순간적인 편향을 직접 제어해야 했지만, 여기서는 σ가 T에 대해 서브선형 감소함을 이용한다.
다단계 Lyapunov 함수 W′(k,Θ_k)=∑{j=k}^{k+T-1}W(Θ_j(k,Θ_k)) 를 정의한다. T를 적절히 선택하면 미래 T 단계에 걸친 평균 편향을 포함시켜, Proposition 1에서 제시한
Θ{k+T}=Θ_k+εT f(Θ_k)+g′(k,T,Θ_k)
형태의 등식과 g′에 대한 기대값 경계(9‑10)를 얻는다. 이때 β_k(T,ε)=εLT(1+εL)^{T-2}+σ(T;k) 가 편향을 정량화한다.
Theorem 1은 W′와 (11‑12) 부등식을 통해, ε가 충분히 작을 때 기대 Lyapunov 감소가
E
댓글 및 학술 토론
Loading comments...
의견 남기기