선형 합성 정규화자를 위한 효율적인 1차 최적화 방법
초록
본 논문은 선형 변환과 단순한 볼록 함수 ω의 합성 형태 g(x)=ω(Bx) 를 갖는 정규화 문제에 대해, ω의 근접 연산자(proximity operator)가 사전에 알려져 있다는 가정 하에 g의 근접 연산자를 효율적으로 계산하는 일반적인 방법을 제시한다. 고정점 반복과 Opial 평균 이론을 이용해 비팽창(non‑expansive) 연산자의 고정점을 찾고, 이를 Nesterov 가속법과 결합함으로써 O(1/T²) 수렴률을 달성한다. 실험에서는 겹치는 Group Lasso, Fused Lasso, 트리 구조 Group Lasso 등에 적용해 기존 O(1/T) 방법보다 현저히 빠른 수렴을 확인하였다.
상세 분석
이 논문은 머신러닝·통계학에서 널리 사용되는 정규화식 g(x)=ω(Bx) 를 일반화된 형태로 다루며, 특히 ω가 단순한 볼록 함수이고 B가 임의의 선형 변환 행렬일 때 근접 연산자 prox_g 를 직접 계산하기 어려운 문제를 해결한다. 핵심 아이디어는 prox_ω 가 사전에 알려져 있거나 효율적으로 계산 가능하다는 전제 하에, prox_g 를 고정점 문제로 변환하는 것이다. 구체적으로, 문제 min_y ½ yᵀQy−xᵀy+ω(By) 의 최적해 ŷ 는 KKT 조건을 이용해 Qŷ∈x−Bᵀ∂ω(Bŷ) 라는 포함관계로 표현된다. 여기서 ∂ω 는 서브디퍼런셜이며, Moreau 식을 이용하면 ∂ω 와 prox_ω 가 서로 역관계임을 이용해 v∈∂(ω)λ(Bŷ) 를 정의한다. 이후 v 를 고정점 연산자 H(v)=v−prox{λω}(Av) 의 고정점으로 보는 것이 핵심이다.
연산자 H 는 비팽창성을 갖지만 수축성은 아니므로, 직접적인 Picard 반복은 수렴을 보장하지 않는다. 이를 해결하기 위해 Opial κ‑average 정리를 적용, φ_κ=κI+(1−κ)H 와 같은 완화된 연산자를 사용한다. κ∈(0,1) 을 적절히 선택하면 φ_κ 의 Picard 반복이 반드시 고정점에 수렴한다는 것이 정리 2.1에 의해 보장된다. 따라서 알고리즘은 다음과 같이 진행된다: (1) 초기 v₀ 설정, (2) v_{t+1}=κv_t+(1−κ)H(v_t) 계산, (3) 수렴 시 v를 얻고, (4) ŷ=Q^{-1}(x−λBᵀv) 으로 최적해를 복원한다.
이 고정점 기반 근접 연산자 계산법은 prox_ω 가 닫힌 형태로 존재하거나 몇 단계 안에 계산 가능한 경우에 특히 효율적이다. 예를 들어 ℓ₁, ℓ₂, ℓ_∞ 노름, Schatten‑p 노름 등은 모두 명시적인 prox_ω 공식이 존재한다. 따라서 다양한 구조적 sparsity 모델—겹치는 Group Lasso, Fused Lasso, 트리 구조 Group Lasso, 다중 작업 학습에서의 핵심‑핵심 정규화—에 일관되게 적용할 수 있다.
알고리즘의 전체 복합 복합성은 매 반복마다 B, Bᵀ 와 Q^{-1} (또는 단순히 Q=I인 경우는 항등 연산)와 prox_ω 의 연산만 필요하므로, 기존의 내부 최적화 루프를 도입하는 방법보다 메모리·시간 효율성이 뛰어나다. 또한 Nesterov 가속법과 결합하면 전체 최적화 문제 min_x f(x)+g(x) 에 대해 O(1/T²) 수렴률을 달성한다는 점에서, 기존 O(1/T) 방법을 근본적으로 능가한다.
실험에서는 겹치는 Group Lasso에 대해 기존의 FOBOS, ISTA 등과 비교했을 때 2~3배 빠른 수렴을 보였으며, Fused Lasso와 트리 구조 Group Lasso에 대해서는 최적 O(1/T²) 속도를 확인하였다. 특히, prox_ω 가 복잡한 경우에도 고정점 반복이 빠르게 수렴함을 보여, 제안된 방법이 실제 대규모 데이터에 적용 가능함을 입증한다.
요약하면, 이 논문은 선형 합성 정규화자의 근접 연산자를 고정점 이론에 기반한 일반적인 프레임워크로 재구성함으로써, 다양한 구조적 정규화 모델에 대해 최적의 1차 최적화 속도를 제공하는 중요한 이론적·실용적 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기