재시작 없는 가속 그래디언트 슬라이딩 방법
초록
본 논문은 강하게 볼록한 복합 최적화 문제에 대해 재시작 단계 없이 최적의 복잡도(그라디언트는 O(log 1/ε), 확률적 서브그라디언트는 O(1/ε))를 달성하는 새로운 stochastic gradient sliding 알고리즘을 제안한다. 또한 구조화된 비정형 항을 포함하는 이중선형 사다점 형태로 변환 가능한 경우, 가속 버전인 RF‑ASGS를 설계해 ∇f는 O(log 1/ε)번, 연산자는 O(1/√ε)번 호출하도록 한다.
상세 분석
논문은 먼저 일반적인 복합 최적화 모델 Ψ(x)=f(x)+h(x)+χ(x) 를 고려한다. 여기서 f 는 L‑리프시츠 연속 그라디언트를 갖는 부드러운 함수, h 는 프로시멀 연산이 어려운 비정형 함수, χ 는 프로시멀 연산이 효율적인 단순 비정형 함수이며, χ 가 μ‑강볼록성을 가진다. 기존 연구에서는 강볼록성 하에서 최적 복잡도를 얻기 위해 다단계 재시작 전략을 사용했지만, 이는 구현 복잡성과 파라미터 관리 부담을 초래한다.
저자들은 재시작 없이도 동일한 복잡도를 달성하기 위해 연속적인 파라미터 업데이트 방식을 도입한다. 핵심 아이디어는 외부 루프에서 가속된 프록시멀 그라디언트 스텝을 수행하고, 내부 루프에서는 동일한 ∇f(x_k) 를 여러 번 재사용하면서 h 에 대한 확률적 서브그라디언트를 반복적으로 샘플링한다. 파라미터 β_k, γ_k, T_k 등을 k 에 따라 미리 정의된 식으로 조정함으로써, 재시작 없이도 각 단계에서 오류 감소율이 재시작 기반 알고리즘과 동일하게 유지된다.
수학적 분석에서는 강볼록성, 리프시츠 연속성, 서브그라디언트의 유한 분산 σ² 등을 가정하고, 두 개의 보조 레마(강볼록성에 대한 프로시멀 최적성, 재귀 부등식)를 이용해 수렴 경계를 유도한다. 정리 2.8 은 기대값 기준으로 E
댓글 및 학술 토론
Loading comments...
의견 남기기