깊은 Leaky ReLU 네트워크를 위한 라프노프 초기화와 한계정리

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 깊은 Leaky ReLU 다층 퍼셉트론에서 활성화 크기의 로그에 대한 대수적 법칙(Law of Large Numbers)과 중심극한정리(Central Limit Theorem)를 엄밀히 증명한다. 이를 통해 레이어가 늘어날수록 활성화가 지수적으로 성장하거나 소멸하는 속도를 결정하는 ‘라프노프 지수’를 정의하고, 가우시안·직교 초기화가 저차원에서는 라프노프 지수가 음수라 활성화가 급격히 사라짐을 보인다. 라프노프 지수를 0으로 맞추는 ‘라프노프 초기화’를 제안하며, 실험적으로 저폭·고깊이 네트워크에서 학습 안정성과 성능이 크게 향상됨을 확인한다.

상세 분석

논문은 먼저 Leaky ReLU 활성화 ϕ(x)=max(x,αx) (α≠0) 를 갖는 고정 폭 d, 깊이 ℓ 인 신경망을 X₀=x₀, X_ℓ=ϕ(W_ℓ X_{ℓ‑1}) 로 정의한다. 가정 3.1은 각 가중치 행렬 W_ℓ 의 원소가 독립이며, 유계 밀도와 유한 2차 모멘트를 갖고, 항등 행렬 근처에서 양의 확률밀도를 가진다. 가정 3.2는 Haar 측도에 절대연속인 스케일된 직교 행렬 집합 η·O(d) 를 다룬다. 이러한 가정 하에 저자들은 로그 노름 L_ℓ=log‖X_ℓ‖에 대해
lim_{ℓ→∞} L_ℓ/ℓ = λ_{μ,ϕ} (a.s.)
를 보이며, 이를 라프노프 지수라 명명한다. λ>0이면 활성화가 폭발, λ<0이면 소멸한다. 기존 선형 경우(Furstenberg‑Kesten)와 달리 비선형 Leaky ReLU 가 포함되었음에도 동일한 형태의 대수적 법칙이 성립한다는 점이 핵심이다.

다음으로 중심극한정리에서는
(L_ℓ – ℓλ_{μ,ϕ}) / √ℓ → N(0,γ_{μ,ϕ})
를 증명한다. 여기서 γ_{μ,ϕ}>0 은 가중치 분포와 α에 의존하는 변동성 파라미터이다. 따라서 깊이가 커질수록 로그 노름은 평균 λℓ에 √ℓ 규모의 Gaussian 잡음을 얹은 형태가 된다. 이는 라프노프 지수를 0으로 맞추면 평균 폭발·소멸이 사라지지만, 여전히 O(√ℓ) 규모의 변동이 존재함을 의미한다.

저자들은 가우시안 가중치 W∼N(0,σ²)와 직교 가중치 W=ηQ (Q∈O(d)) 에 대해 λ_{μ,ϕ} 를 명시적으로 계산한다. 가우시안 경우 λ = E

깊은 Leaky ReLU 네트워크를 위한 라프노프 초기화와 한계정리

초록

상세 분석

댓글 및 학술 토론

의견 남기기