신경망 열역학: 엔트로피 힘이 이끄는 보편적 표현 학습
초록
본 논문은 확률적 경사 하강법(SGD)과 그 변형에서 발생하는 엔트로피 힘을 정량화하고, 이 힘이 연속적인 파라미터 대칭을 파괴하면서 이산 대칭만을 보존한다는 이론을 제시한다. 엔트로피 손실을 도입해 학습 과정이 열역학적 equipartition 현상을 보이며, 층·뉴런 간의 그래디언트 균형과 보편적 표현 정렬을 설명한다.
상세 분석
이 논문은 딥러닝 최적화 역학을 물리학의 엔트로피 개념과 연결시키는 새로운 프레임워크를 제안한다. 먼저 기존의 손실 ℓ(x,θ)와 정규화 γ‖θ‖²를 합친 에너지 L(θ)를 정의하고, SGD의 이산적·확률적 특성을 반영한 ‘엔트로피 손실’ ϕ_η를 전개한다. ϕ_η는 원래 손실에 학습률 η에 비례하는 1/4 ∇ℓᵀΛ∇ℓ와 고차 항을 추가한 형태이며, 이는 ‘효과 엔트로피’ S(θ)와 동일시된다. 이 엔트로피 항은 학습률이 클수록 크게 작용해 파라미터 공간에서의 흐름을 비가역적으로 만든다.
핵심 정리는 두 단계로 전개된다. 첫째, Theorem 2는 연속적인 K‑invariant 대칭(예: 스케일 변환, 회전 등)이 엔트로피 손실 하에서는 거의 전부 사라지고, 남는 대칭은 노름을 보존하는 직교 변환뿐임을 증명한다. 이는 SGD가 무한히 작은 학습률에서만 보존되는 연속 대칭이 실제 학습에서는 깨진다는 물리적 직관과 일치한다. 둘째, Theorem 4‑6은 이러한 대칭 파괴가 ‘마스터 밸런스’와 ‘equipartition’ 현상을 초래한다는 점을 보인다. 특히 ReLU 네트워크에서는 각 층의 그래디언트 공분산 E
댓글 및 학술 토론
Loading comments...
의견 남기기