Bregman 발산을 이용한 준 뉴턴 업데이트의 수렴 및 강인성 분석
초록
본 논문은 기존 퀘이시-뉴턴 방법의 헤시안 근사식에 Bregman 발산을 도입해 일반화한 업데이트 규칙을 제시한다. 툴러가 제시한 변분 문제를 Kullback‑Leibler(KL) 발산 최적화와 동일시하고, 이를 Bregman 발산으로 확장함으로써 새로운 자기‑스케일링(quasi‑Newton) 업데이트식을 도출한다. 제안 방식의 전역 수렴성을 증명하고, 라인 서치 단계에서 발생하는 수치적 오차에 대한 강인성을 로버스트 통계의 영향 함수(influence function) 개념으로 분석한다. 결과적으로 표준 BFGS 업데이트만이 라인 서치 오차에 대해 유한한 영향 함수를 갖는다는 것을 확인하고, 실험을 통해 이론적 결과를 검증한다.
상세 분석
논문은 먼저 퀘이시‑뉴턴 방법의 핵심인 헤시안 근사 행렬 (B_k) 를 어떻게 갱신할 것인가에 대한 변분 문제를 재조명한다. 기존 연구에서 Fletcher가 제시한 변분식은 두 양의 정부호 행렬 사이의 Kullback‑Leibler(KL) 발산을 최소화하는 형태와 동치임을 보인다. KL 발산은 확률분포 간의 비대칭적 거리 측정이며, 행렬을 확률공분산으로 해석함으로써 수학적 정당성을 확보한다. 여기서 저자들은 KL 발산을 Bregman 발산이라는 보다 일반적인 프레임워크로 확장한다. Bregman 발산은 임의의 엄격히 볼록한 함수 (\phi) 에 대해 (\mathrm{D}_\phi(P,Q)=\phi(P)-\phi(Q)-\langle\nabla\phi(Q),P-Q\rangle) 로 정의되며, KL 발산은 (\phi(P)=\operatorname{tr}(P\log P-P)) 일 때의 특수 사례이다.
Bregman 발산을 이용한 변분 문제는
\
댓글 및 학술 토론
Loading comments...
의견 남기기