거의 베이즈: SGD의 프랙탈 동역학
초록
본 논문은 확률적 경사 하강법(SGD)의 장기 동작을 프랙탈 구조를 가진 손실 풍경 위에서의 확산 현상으로 모델링한다. 싱귤러 학습 이론의 로컬 러닝 계수와 스펙트럼 차원을 도입해, SGD가 베이즈 사후분포를 접근하되 접근 가능한 영역을 프랙탈 차원으로 제한한다는 ‘템퍼링된 베이즈 샘플러’로 해석한다. 실험을 통해 가중치 확산 패턴과 이론적 예측이 일치함을 확인한다.
상세 분석
이 논문은 최근 딥러닝 이론에서 중요한 두 축, 즉 베이즈 샘플링과 SGD의 비선형 동역학을 통합하려는 시도로 눈길을 끈다. 기존 연구들(예: Mandt et al., 2016; Chen et al., 2021)은 SGD를 라플라시안 확산이나 초확산·아래확산 모델에 매핑했지만, 대부분 손실면이 이차형(Quadratic)이라고 가정하거나 실험적 관찰에 머물렀다. 본 논문은 이러한 한계를 ‘프랙탈 매질(porous media)’이라는 물리적 비유와 싱귤러 학습 이론(SLT)의 로컬 러닝 계수(LLC)를 결합함으로써 극복한다.
핵심 수학적 기여는 두 가지이다. 첫째, 시간-프랙탈 파생 연산자를 이용한 Fractional Fokker‑Planck Equation(FFPE)을 제시하고, 이를 통해 SGD의 확률 밀도 진화를 비정상 확산 형태로 기술한다. 여기서 0<α<1인 Caputo 파생은 초확산 초기와 아랫확산 후기 단계 모두를 포괄할 수 있는 일반화된 미분 연산이다. 둘째, LLC를 프랙탈 차원으로 해석하고, 이를 스펙트럼 차원(d_s)과 연결시켜 Alexander‑Orbach 관계 d_walk = 2·λ·d_s 를 도출한다. 이 관계는 손실면의 국소 기하학(LLC)과 확산 경로의 전역적 차원(d_walk)이 어떻게 결합되는지를 명시적으로 보여준다.
또한, 논문은 확산 텐서를 스칼라 함수 D(w)로 근사함으로써 실용적인 분석을 가능하게 한다. 이는 대규모 배치와 적절한 학습률 하에서 ‘이방성’ 효과가 평균화된다는 가정에 기반한다. 이 근사는 실험적 검증을 통해 정당화되며, 결국 ‘프랙탈 접근성(Accessibility)’에 의해 조정된 베이즈 사후분포 p(w) ∝ π(w)·exp(−L(w)/T)·A(w) 형태를 제시한다. 여기서 A(w)≈ε^{λ(w)}는 LLC에 의해 정의된 가중치 공간의 ‘접근 가능성’ 가중치이다.
비판적으로 보면, 몇 가지 한계가 존재한다. 첫째, FFPE의 해를 구할 때 α와 D(w)의 구체적 추정 방법이 충분히 제시되지 않아, 실제 구현 시 파라미터 튜닝이 어려울 수 있다. 둘째, 실험은 주로 완전 연결망과 간단한 합성 데이터에 국한되어 있어, 현대의 대규모 CNN·Transformer 구조에 대한 일반화 가능성을 추가 검증해야 한다. 셋째, ‘프랙탈 차원’이 실제 손실면에서 어떻게 측정되는지에 대한 정량적 프로토콜이 부족하다. 이 부분은 최근 제안된 로컬 러닝 계수 추정법을 그대로 적용했지만, 고차원 파라미터 공간에서의 샘플링 편향을 무시한다는 점이 우려된다.
그럼에도 불구하고, 이 논문은 SGD를 베이즈적 관점에서 재해석하는 새로운 프레임워크를 제공한다는 점에서 의미가 크다. 특히, 손실면의 비정상 기하학을 정량화하고, 이를 확산 동역학에 연결시키는 방법론은 향후 일반화 이론, 최적화 알고리즘 설계, 그리고 프랙탈 기반 정규화 기법 개발에 중요한 토대를 제공할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기