완전 1차 알고리즘으로 푸는 온라인 이중 최적화
초록
본 논문은 기존에 헤시안‑벡터 곱(HVP) 의존도가 높았던 온라인 이중 최적화(OBO) 문제를, 1차 미분만을 이용하는 완전 1차 알고리즘(F²OBO)으로 재구성한다. 라그랑지안 기반 단일 레벨 변환과 적응형 내부 반복 스킴을 통해 $O(1+V_T+H_{2,T})$ 및 $O(\sqrt{T}+V_T)$의 서브선형 레귤레션을 달성한다.
상세 분석
논문은 비볼록‑강볼록 구조의 온라인 이중 최적화 문제를 라그랑지안 형태로 단일 레벨 제약 최적화로 변환한다. 이때 제약을 패널티 항으로 넣어 $\lambda_t$ 라는 라그랑지 승수를 도입하고, $\lambda_t\to\infty$ 로 갈수록 원래의 이중 목적 $f_t(x,y^_t(x))$ 와 일치하도록 설계한다. 핵심은 $\nabla_y L_t(x,y,\lambda_t)=0$ 을 이용해 $\nabla y^_t(x)$ 를 명시적으로 계산하지 않아도 된다는 점이다. 따라서 알고리즘은 내부 문제 $g_t$ 와 라그랑지안 $L_t$ 에 대해 각각 $K$ 번의 단순 경사 하강을 수행하고, 외부 변수 $x$ 는 투사형 경사 사다리법(OGD)으로 업데이트한다.
이 과정에서 두 가지 중요한 설계 선택이 있다. 첫째, $\lambda_t$ 를 $ \lambda_{t+1}= (1+1/t)^{\tau}\lambda_t$ 형태로 점진적으로 증가시켜 제약 위반 오차를 $O(t^{-\tau})$ 로 억제한다. 둘째, 내부 반복 수 $K$ 를 $K = \Theta(\log T)$ 로 설정해 각 시점에서 $y$ 와 $z$ 를 충분히 수렴시키면서도 전체 복잡도는 $O(T\log T)$ 로 유지한다.
이론적 분석은 먼저 하이퍼그라디언트 오차 $|\nabla F_t(x_t)-\nabla L^*{\lambda_t,t}(x_t)|$ 를 $\lambda_t^{-1}$ 로 상한하고, 이를 레귤레션 식 (10) 에 대입해 전체 레귤레션을 $O(\sum_t t^{-\tau}+V_T+H{2,T})$ 로 얻는다. $\tau>1$ 을 선택하면 첫 항이 상수 수준이 되어 최종 레귤레션은 $O(1+V_T+H_{2,T})$ 가 된다.
또한 적응형 버전(AF²OBO)은 $\lambda_t$ 를 고정하고 내부 반복 수를 동적으로 조절함으로써 $H_{2,T}$ 의 의존성을 제거한다. 이 경우 레귤레션은 $O(\sqrt{T}+V_T)$ 로, $V_T$ 가 $\sqrt{T}$ 이상일 때 기존 방법보다 유리함을 보인다.
실험적 검증은 기존 하이퍼그라디언트 기반 OBO 알고리즘(FSOBO, SOBO‑W, OBBO) 대비 동일한 1차 그라디언트 호출 수에서 비슷하거나 더 낮은 레귤레션을 기록하며, HVP 요구가 전혀 없다는 점에서 실용성이 크게 향상된다.
댓글 및 학술 토론
Loading comments...
의견 남기기