공식 경로를 따라가는 CG와 그라디언트 흐름의 정규화 비교
초록
본 논문은 고차원 선형 회귀에서 리지 페널티를 최소화하기 위해 사용되는 표준 경사 하강법(GD), 연속 시간 흐름인 Gradient Flow(GF), 그리고 Conjugate Gradient(CG) 알고리즘의 정규화 경로를 비교한다. 새로운 비표준 오류 분해를 도입해 CG 반복의 예측 위험을 변환된 시간 인덱스를 가진 GF 위험으로 상한을 잡음으로써, 전체 정규화 경로에서 CG가 GF와 리지 회귀와 동일한 정규화 효과를 가짐을 증명한다. 또한, CG 오라클 반복이 GF와 리지 오라클과 상수 배 이내의 최적성을 공유함을 보인다. 실험을 통해 이론적 결과가 실제 데이터에서도 일치함을 확인한다.
상세 분석
논문은 먼저 리지 회귀의 목적함수 Eλ(β)=½n‖y−Xβ‖²+½λ‖β‖²를 정의하고, 이를 최소화하기 위한 세 가지 알고리즘을 소개한다. GD는 고정 학습률 η를 사용한 이산 업데이트이며, ηk=t/k 로 선택하면 연속 시간의 Gradient Flow(GF)와 수렴한다. GF는 미분 방정식 dβ(t)/dt=−∇Eλ(β(t)) 의 해로, 해석적으로 β_GF(t)=Σ_λ^{-½}(I−e^{-tΣ_λ})y_λ 으로 표현된다. CG는 전통적인 최소 잔차 다항식 R_CG,k를 이용해 β_CG,k=Σ_λ^{-½}(I−R_CG,k(Σ_λ))y_λ 로 나타낼 수 있다. 여기서 R_CG,k는 차수 k 다항식이며, 잔차 최소화 조건 ‖R_CG,k(Σ_λ)y_λ‖ 최소화를 만족한다. 논문은 CG의 비선형성 때문에 직접적인 위험 분석이 어려운 점을 지적하고, 새로운 오류 분해식(정리 3.1)을 도입한다. 이 분해는 추정량을 β̂=Σ_λ^{-½}(I−R(Σ_λ))y_λ 형태로 두고, 위험을 근사오차 A, 잡음오차 S, 교차항 C 세 부분으로 나눈다. R이 결정적이면 교차항의 기댓값이 0이 되므로 위험은 A+σ² tr
댓글 및 학술 토론
Loading comments...
의견 남기기