강인한 가속 경사하강법 무게추 모멘텀과 예측 외삽 결합
초록
본 논문은 기존 가속 최적화 기법인 Nesterov 가속 경사(NAG)가 악조건(고조건수, 비볼록) 문제에서 불안정하게 발산하는 한계를 극복하고자, 무게추(HB) 모멘텀에 지역 1차 테일러 근사를 이용한 미래 그래디언트 예측을 결합한 Heavy‑Ball Synthetic Gradient Extrapolation(HB‑SGE) 알고리즘을 제안한다. 강한 볼록성 가정 하에 선형 수렴을 증명하고, 조건수 50 이상의 이차형 문제와 Rosenbrock 함수 등에서 NAG와 기존 모멘텀 방법이 발산하는 상황에서도 안정적으로 수렴함을 실험적으로 확인한다. 메모리와 하이퍼파라미터는 기존 모멘텀과 동일하게 O(d)와 η, β 두 개만 필요하다.
상세 분석
HB‑SGE는 기존 무게추(HB) 모멘텀 업데이트에 “예측 외삽” 단계—즉, 현재 그래디언트와 이전 그래디언트 차이를 이용해 다음 단계의 그래디언트를 선형적으로 추정하는 과정—을 추가한다. 수식 (4)‑(6)에서 보듯, 1차 테일러 전개를 근사하기 위해 Hessian를 직접 계산하지 않고 ∆gₜ = ∇f(xₜ)−∇f(xₜ₋₁) 로 그래디언트 변화를 추정하고, αₜ 를 곱해 합산한다. 이때 αₜ 는 “gradient norm 증가 여부”에 따라 자동으로 감소하도록 설계돼, 급격한 곡률 변화나 발산 위험이 감지되면 외삽 강도를 억제한다. 따라서 모멘텀의 가속 효과는 유지하면서, NAG에서 흔히 발생하는 고유값 증폭 현상을 완화한다.
이론적 분석에서는 L‑smooth 및 µ‑strongly convex 가정 하에 η ≤ 1/L·(1+α_max) 와 β<1 을 만족하면, 기대값 기준으로 ‖xₜ−x*‖² 가 (1−ηµ(1−β)²)ᵗ 만큼 기하급수적으로 감소함을 정리 3.2 로 제시한다. 증명은 기존 HB 분석에 외삽 항의 L‑smooth 경계와 모멘텀 결합 효과를 추가한 형태이며, αₜ 가 고정될 경우에도 상수 C 로 묶어 수렴률을 유지한다는 점이 핵심이다.
안정성 측면에서는 정규형 이차 함수 f(x)=½xᵀAx−bᵀx 에 대해 NAG가 발산하는 파라미터 조합에서도, αₜ < 2ηL−1 조건만 만족하면 HB‑SGE의 전이 행렬 λ_HB(λ_i)=1−ηλ_i(1+αηλ_i)+β 가 모든 고유값에 대해 |λ|<1 을 보장한다(정리 3.5). 이는 외삽 항이 고유값 증폭을 억제해, 조건수가 큰 경우에도 수렴을 가능하게 한다는 의미다.
실험에서는 κ=10, 50, 100, 500 인 10‑차원 이차형 문제와 Rosenbrock, Beale 함수에 대해 표준 SGD, Classical Momentum, NAG, Adam 과 비교했다. 특히 κ=50, 100, 500 에서는 NAG와 Momentum이 200300 iteration 내에 발산하거나 수렴하지 못했지만, HB‑SGE는 119210 iteration 안에 최적점에 도달했다. Rosenbrock에서는 NAG와 Momentum이 10 iteration 내에 발산했으나, HB‑SGE는 2,718 iteration 에 수렴하였다. 비록 NAG가 잘 조건된 문제에서는 더 빠를 수 있지만, HB‑SGE는 “속도와 안정성 사이의 중간 지점”을 제공하며, 메모리와 하이퍼파라미터 오버헤드가 동일하다는 실용적 장점도 갖는다.
요약하면, HB‑SGE는 무게추 모멘텀의 안정성에 예측 외삽을 결합함으로써, 고조건수·비볼록 환경에서도 발산 없이 가속을 달성한다는 새로운 설계 원칙을 제시한다. 이 접근법은 기존 딥러닝 최적화 파이프라인에 최소 수정만으로 적용 가능하며, 특히 학습률과 모멘텀 튜닝에 민감한 대규모 모델에 유용할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기