적응형 조건부 그래디언트 슬라이딩: 투사·선탐색 없이 가속화된 최적화
초록
본 논문은 투사 연산이 비싸고 선형 최소화 오라클(LMO)만 이용 가능한 제약 최적화 문제에 대해, 지역 Lipschitz 추정에 기반한 적응형 스텝 사이즈와 내부 FW‑gap 허용 오차를 결합한 Adaptive Conditional Gradient Sliding(AdCGS) 알고리즘을 제안한다. AdCGS는 Nesterov 가속을 유지하면서 투사와 라인서치를 전혀 사용하지 않으며, 일반적인 볼록 함수에 대해 O(1/k²) 수렴률, 강볼록 함수에 대해 선형 수렴률을 보인다. 실험에서는 ℓₚ 회귀, 로지스틱 회귀, 최소제곱 문제에서 기존 투사‑기반 및 투사‑프리 방법들을 모두 능가한다.
상세 분석
AdCGS는 기존 Conditional Gradient Sliding(CGS) 프레임워크를 기반으로 하면서 두 가지 핵심 혁신을 도입한다. 첫째, 전역 Lipschitz 상수 L을 사전에 지정할 필요 없이 지역 Lipschitz 추정 Lₖ를 매 반복마다 (3)·(4)식으로 계산한다. 이는 현재 두 연속 iterate 사이의 함수값 차와 그래디언트 차를 이용해 Lₖ = ‖∇f(xₖ)‑∇f(xₖ₋₁)‖² / (2·D_f(xₖ₋₁, xₖ)) 형태로 얻어지며, 실제 문제에서 급격히 변하는 곡률에 자동으로 대응한다. 둘째, 내부 CG 루프는 FW‑gap δₖ 를 미리 정해진 스케줄에 따라 감소시키면서, 정확도 요구를 완화하거나 강화한다. 이때 δₖ는 k에 따라 D₀²·k^{‑1‑θ} (θ>0) 혹은 D₀²·N·k^{‑1} 형태로 설정되어, 전체 외부 반복 N에 비례해 총 LMO 호출 수를 제어한다.
알고리즘 흐름은 다음과 같다. 외부 단계 k에서 현재 gradient ∇f(x_{k‑1})와 이전 내부 변수 y_{k‑1}를 이용해 강볼록 서브문제 (2)를 정의하고, CG 루프를 통해 FW‑gap ≤ δₖ가 될 때까지 LMO만 호출한다. 이때 서브문제는 선형 항과 ½ηₖ‖·‑y_{k‑1}‖² 로 구성돼, ηₖ는 Lₖ에 기반한 적응형 스텝 사이즈이며, βₖ와 τₖ는 Nesterov 가속을 위한 가중치이다. CG 루프 내부에서는 전통적인 Frank‑Wolfe 업데이트와 함께, 스텝 크기 γₜ를 최대 허용 감소량으로 제한해 수렴성을 보장한다(알고리즘 1, 절차 CG).
수학적 분석은 먼저 one‑step inequality(Proposition 3.1)를 도출하고, 여기서 발생하는 오차 항 D_i와 누적 오차 S_k를 정확히 추정한다. 핵심은 D_i에 포함된 ‖∇f(x_{i‑1})‑∇f(x_{i‑2})‖·‖z_{i‑1}‑z_i‖ 항을 Lₖ와 ηₖ의 관계를 이용해 상한을 잡는 것이다. 이를 통해 Theorem 3.2는 가속된 O(1/k²) 수렴을 보이며, S_k는 δₖ 스케줄에 따라 O(log k/k²) 수준으로 억제된다.
강볼록 경우에는 τₖ와 βₖ를 적절히 선택하고, δₖ를 충분히 작은 상수 수준으로 고정하면, 서브문제의 강볼록성에 의해 선형 수렴이 직접적으로 도출된다. 특히, 기존 CGS가 강볼록 수렴을 보이기 위해서는 폴리토프 혹은 강볼록 제약 집합과 같은 추가적인 기하학적 가정이 필요했지만, AdCGS는 이러한 가정 없이도 선형 수렴을 달성한다는 점이 큰 장점이다.
복잡도 측면에서 Theorem 2.1은 k번째 외부 반복에서 δₖ 정확도를 만족시키기 위해 필요한 CG 반복 수 Tₖ ≤ ⌈6D²/(ηₖδₖ)⌉ 를 제시한다. ηₖ가 k에 따라 O(k⁻¹) 정도 감소하고 δₖ가 O(k⁻¹‑θ) 로 감소하면, 전체 LMO 호출 횟수는 O(N log N) 수준에 머무른다. 실험에서는 이론적 복잡도와 일치하게, 높은 차원의 ℓₚ 회귀와 로지스틱 회귀에서 기존 투사‑프리 방법보다 적은 LMO 호출로 동일하거나 더 빠른 목표 함수 감소를 보였다.
요약하면, AdCGS는 투사·선탐색 없이 Nesterov 가속을 구현하고, 지역 Lipschitz 기반 적응형 스텝과 FW‑gap 제어를 통해 이론적 가속률과 실용적 효율성을 동시에 달성한 새로운 조건부 그래디언트 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기