SGD는 평탄함을 찾는가? 정확히 풀린 모델로 보는 샤프니스와 플랫니스의 이중성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 깊은 선형 네트워크와 선형 교사 모델을 이용해 SGD가 “최소 그래디언트 변동”을 선호한다는 가설을 정확히 증명한다. 라벨 노이즈가 모든 출력 차원에 대해 등방성이면 최평탄 최소점으로 수렴하지만, 노이즈가 비등방성이면 노이즈 공분산 행렬의 조건수에 비례해 매우 날카로운 최소점으로 수렴한다. 이 이론을 MLP, RNN, Transformer 등 비선형 모델에 적용해 실험적으로 검증하였다.

상세 분석

**
논문은 먼저 “샤프니스 패러독스”라 부르는 현상을 정리한다. 일부 연구는 SGD가 플랫한 최소점에 편향된다고 주장하는 반면, 최신 실험에서는 학습 과정 중 손실 곡률이 지속적으로 증가하고 최종적으로 ‘안정성의 경계(Edge of Stability)’에 도달한다는 보고가 있다. 이러한 모순은 초기값의 임의성, 실행마다 다른 로컬 최소점 등 여러 교란 요인 때문에 명확히 규명되지 못했다. 저자들은 이 문제를 해결하기 위해 두 가지 요구조건을 만족하는 모델을 설계한다. 첫째, 전역 최소점이 무한히 많은 평탄도(샤프니스)를 갖는 고차원 매니폴드가 존재해야 한다. 둘째, SGD가 해당 매니폴드 위에서 고유한 샤프니스 값을 선택하도록 해야 한다.

이를 위해 D‑layer 깊은 선형 네트워크 (f_{\theta}(x)=W_D\cdots W_1 x)와 라벨이 선형 교사 (V)와 가우시안 노이즈 (\epsilon)로 생성되는 회귀 문제를 설정한다. 손실은 평균제곱오차이며, 전역 최소조건은 (W_D\cdots W_1 = V)이다. 이때 매트릭스 재스케일링 대칭((W_i\to W_iA,,W_{i-1}\to A^{-1}W_{i-1})) 때문에 동일한 최소점에 대해 무한히 큰 헤시안(샤프니스)값을 만들 수 있다.

핵심은 “최소 변동(Minimal‑Fluctuation) 가정”이다. 최근 연구(Rob21 등)는 미니배치 SGD가 실제로는 다음과 같은 엔트로피 손실을 최소화한다고 제시한다.
\

SGD는 평탄함을 찾는가? 정확히 풀린 모델로 보는 샤프니스와 플랫니스의 이중성

초록

상세 분석

댓글 및 학술 토론

의견 남기기