분산 제어가 희소 활성화 DNN·CNN 학습 안정성을 크게 향상시킨다
초록
**
본 논문은 Edge‑of‑Chaos(EoC) 초기화에서 선택 가능한 고정 분산 (q^{}) 값을 크게 설정하면, τ‑shifted 및 clipped ReLU(CReLU)와 같은 희소 활성화 함수가 90%까지의 높은 스파스성을 유지하면서도 학습 안정성과 표현력을 크게 개선한다는 것을 보인다. 높은 (q^{}) 는 분산 맵의 대칭성을 회복하고, χ₁(·)의 민감도를 낮추어 깊은 네트워크에서의 폭발·소멸 현상을 억제한다. 실험 결과는 DNN·CNN 모두에서 동일한 현상을 확인한다.
**
상세 분석
**
이 논문은 기존 Edge‑of‑Chaos(EoC) 이론을 확장하여, 활성화 함수가 원점 주변에서 0이 되는 CReLU_{τ,m} 및 CST_{τ,m} 와 같은 “희소 활성화”에 대한 초기화 안정성을 분석한다. 핵심 변수는 무한 폭 넓이 한계에서 얻어지는 고정 분산 (q^{}) 이며, 전통적으로는 (q^{}=1) 이 기본값으로 사용된다. 저자들은 (q^{*}) 를 인위적으로 크게 만들면 두 가지 중요한 효과가 나타난다고 주장한다.
첫째, 분산 맵 (V(q)) 의 1차 도함수 (V’(q^{})) 가 1보다 크게 되는 현상을 완화한다. (V’(q^{})>1) 이면 (q^{(\ell)}) 가 고정점으로 수렴하지 못하고 발산한다. 논문은 (q^{}) 를 증가시킬수록 (V’(q^{})) 가 감소해 (V’(q^{*})<1) 구간으로 이동함을 실험적·수식적으로 보여준다(그림 3).
둘째, 2차 도함수 (V’’(q^{})) 가 감소한다. (V’’(q^{})) 는 고정점 주변의 비대칭성을 나타내는 지표이며, 비대칭성이 클수록 χ₁(q) = σ_w² · E
댓글 및 학술 토론
Loading comments...
의견 남기기