강하게 볼록한 확률 최적화에서 SGD를 최적화한다
본 논문은 강하게 볼록한 확률 최적화 문제에서 확률적 경사 하강법(SGD)의 수렴 속도를 재검토한다. 함수가 매끄러운 경우 SGD는 평균 또는 마지막 반복점에서 최적의 O(1/T) 속도를 달성함을 보이고, 비매끄러운 경우 기존 평균 방법은 Ω(log T / T) 하한에 머무른다. 마지막 α‑접미 평균을 적용하면 비매끄러운 경우에도 O(1/T) 속도를 회복할 수 있음을 증명한다. 실험을 통해 이론적 결과를 확인한다.
저자: Alex, er Rakhlin, Ohad Shamir
본 논문은 강하게 볼록한 확률 최적화 문제에서 가장 널리 사용되는 확률적 경사 하강법(SGD)의 수렴 속도를 재평가하고, 상황에 따라 최적의 O(1/T) 수렴률을 달성할 수 있는 간단한 변형을 제시한다.
첫 번째 섹션에서는 문제 설정과 기존 이론적 배경을 소개한다. 함수 F는 λ‑strongly convex이며, 오라클을 통해 무편향 서브그라디언트 ˆg_t 를 얻는다. 단계 크기는 η_t=Θ(1/t) 로 잡으며, 특히 η_t=1/(λt) 를 가정한다. 이때, 기존 문헌(Hazan & Kale 2011)은 SGD와 평균을 사용하면 O(log T / T) 의 수렴률을 보인다고 주장한다. 그러나 Hazan & Kale는 더 복잡한 알고리즘을 통해 O(1/T) 를 달성할 수 있음을 보여, SGD가 서브옵티멀하다는 인식을 만들었다.
두 번째 섹션에서는 매끄러운 경우(μ‑smooth) 를 다룬다. Lemma 1을 통해 ‖w_T−w*‖² 의 기대값이 4G²/(λ²T) 로 감소함을 보이고, 이를 μ‑smoothness 정의와 결합하면 E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기