커널 공액 기울기 회귀의 최적 학습률
초록
본 논문은 커널 기반 최소제곱 회귀에 공액 기울기(conjugate gradient) 알고리즘을 적용하고, 조기 종료(early stopping)를 통해 과적합을 방지하는 정규화 방식을 제안한다. 목표 함수의 정규성 및 커널 공간에서의 내재 차원(intrinsic dimensional성) 두 가지 요인을 바탕으로 학습률 수렴 속도를 이론적으로 분석한다. 기존 연구에서 제시된 하한과 일치하는 상한을(로그 항을 제외하고) 증명하며, 목표 함수가 재생 커널 힐베르트 공간(RKHS)에 포함되지 않을 경우에도 추가적인 라벨이 없는 데이터가 있으면 유사한 수렴 속도를 얻을 수 있음을 보인다. 결과적으로 제안 방법은 최신 최소제곱 서포트 벡터 머신 및 선형 정규화 연산자와 동등한 최적 학습률을 달성한다.
상세 분석
이 연구는 커널 기반 회귀 문제에서 공액 기울기(conjugate gradient, CG) 알고리즘을 이용한 조기 종료(early stopping) 전략을 정규화 메커니즘으로 채택한다는 점에서 혁신적이다. 전통적인 커널 리지 회귀나 최소제곱 서포트 벡터 머신(SVM)은 Tikhonov 정규화와 같은 선형 연산자를 통해 과적합을 억제한다. 그러나 CG는 본질적으로 Krylov 서브스페이스를 순차적으로 확장하면서 최적화 문제를 해결하므로, 반복 횟수 자체가 정규화 파라미터 역할을 할 수 있다. 논문은 이를 “Kernel Conjugate Gradient regression”이라 명명하고, 조기 종료 시점이 학습률에 직접적인 영향을 미친다는 수학적 근거를 제공한다.
핵심 이론적 프레임워크는 두 가지 가정에 기반한다. 첫 번째는 목표 회귀 함수 f가 RKHS H에 속하거나, 보다 일반적으로 (H, L2(ρX)) 사이의 소정의 삽입 연산자에 의해 정의되는 소정의 정규성(소위 source condition) 을 만족한다는 가정이다. 이 경우 f를 H의 원소로 표현할 수 있어, 재현 커널 K가 정의하는 특성 공간에서의 복잡도가 직접적으로 학습률에 반영된다. 두 번째는 데이터 분포가 커널 매핑 후에 갖는 “intrinsic dimensional성”을 정량화하는 effective dimension N(λ)=Tr
댓글 및 학술 토론
Loading comments...
의견 남기기