딥러닝 시스템의 해석·변분 안정성 통합 프레임워크
초록
본 논문은 표현과 파라미터의 결합 동역학을 모델링하여 학습 과정 전반에 걸친 미소 교란 전파를 정량화하는 “학습 안정성 프로파일(LSP)”을 제안한다. LSP의 균일 유계와 Lyapunov‑형 에너지 소멸 조건이 서로 동등함을 보이는 기본 해석 안정성 정리를 증명하고, 이를 통해 피드포워드, 레지듀얼, 확률적 경사 하강법 등 다양한 아키텍처와 최적화 방법에 대한 기존의 스펙트럼 안정성, CFL 조건, 시간적 안정성 법칙을 일관되게 재해석한다. 또한 ReLU와 같은 비부드니스, 프로젝션·프로시멀 업데이트 등 비스무스 시스템에 대해서는 Clarke 일반화 도함수와 변분 Lyapunov 함수로 확장한다. 결과적으로 설계·학습 선택이 어떻게 시스템의 강건성 및 민감도를 공동으로 제어하는지를 통합적인 동역학 관점에서 설명한다.
상세 분석
논문은 먼저 학습을 (Xₖ,θₖ,Uₖ) 로 구성된 공동 상태 Zₖ,t 로 표현하고, 이들의 이산 시간 전이 Φₖ,t 를 통해 Zₖ+1,t+1=Φₖ,t(Zₖ,t) 로 기술한다. 여기서 Φₖ,t 가 매끄럽거나 로컬 리프시츠인 경우, 일반화 야코비안 Jₖ,t 를 정의하고, 이들의 최대 노름 σₓ,σ_θ,σ_u 를 각각 표현, 파라미터, 업데이트 방향의 민감도 지표로 삼는다. LSP는 이러한 σ 값들을 깊이·시간 전역에서 supremum 으로 취해 정의되며, 이를 로그 스케일로 정규화한 것이 αₓ,α_θ,α_u 라는 해석적 안정 지수이다. α가 0 이하이면 교란이 선형적으로 제한되고, 음수이면 지수적으로 감쇠한다는 의미다.
핵심 정리인 Fundamental Analytic Stability Theorem은 두 조건을 동등하게 만든다. (1) 모든 깊이·시간에 대해 σₓ,σ_θ,σ_u 가 일정 상수 C 로 유계(즉, α≤0)이고, (2) 학습 흐름을 따라 감소하는 강제(coercive) C¹ 에너지 E 와 양의 감쇠 상수 γ 가 존재한다는 것이다. 증명은 유계 민감도가 전역 리프시츠성을 부여하고, 이로부터 이산 Lyapunov 이론을 적용해 에너지 함수를 구성함으로써 진행된다. 반대 방향에서는 에너지 감소식이 선형화된 시스템에 적용되어, 만약 어느 한 방향이라도 무한히 성장한다면 Lyapunov 부등식이 위배됨을 보인다.
이론을 구체적인 네트워크에 적용하면, (i) 피드포워드 네트워크에서는 각 층의 가중치 스펙트럼 노름 ‖Wₖ‖₂ ≤ρ<1이면 전체 전이의 노름이 ρᴸ 로 억제되고 αₓ=logρ<0 가 된다. (ii) 레지듀얼 네트워크는 Xₖ₊₁=Xₖ+h·gₖ(Xₖ;θₖ) 형태로, gₖ 가 전역 리프시츠 M_g 와 균일 소산성 m을 만족하면 한 단계의 리프시츠 상수는 √(1−2hm+h²M_g²) 로 표현되고, h<2m/M_g² 인 CFL‑type 조건 하에 전체 네트워크가 수축한다. (iii) 확률적 경사 하강법(SGD)에서는 평균 제곱 Lyapunov 재귀 E
댓글 및 학술 토론
Loading comments...
의견 남기기