정규화의 기하학적 비용 베이지안 복잡도와 로컬 학습 계수의 정량적 분석

본 논문은 LayerNorm과 RMSNorm이 입력 데이터에 부여하는 기하학적 제약을 분석하고, 이러한 제약이 Bayesian 복잡도 지표인 Local Learning Coefficient(LLC)에 미치는 영향을 정량적으로 규명한다. LayerNorm은 평균을 0으로 맞춤으로써 데이터가 원점을 통과하는 차원 d‑1의 선형 초평면에 제한되며, 이때 후속 가중치 행렬의 LLC가 정확히 m/2만큼 감소한다. 반면 RMSNorm은 구면 제약만을 가해…

저자: Sungbae Chun

정규화의 기하학적 비용 베이지안 복잡도와 로컬 학습 계수의 정량적 분석
본 논문은 현대 딥러닝에서 널리 사용되는 정규화 기법인 LayerNorm과 RMSNorm이 모델의 베이지안 복잡도에 미치는 영향을 기하학적 관점에서 체계적으로 분석한다. 연구의 핵심 질문은 “정규화 층이 입력 데이터에 부여하는 제약이 파라미터 공간의 연속 대칭을 어떻게 생성하고, 이는 Local Learning Coefficient(LLC)라는 베이지안 복잡도 지표에 어떤 정량적 변화를 초래하는가?”이다. 1. **이론적 배경** - **Singular Learning Theory (SLT)**와 **Local Learning Coefficient**: SLT는 비정규 모델의 베이지안 학습 이론을 제공하며, LLC는 모델이 실제로 활용하는 자유도(효과 파라미터 수)를 나타낸다. 연속 대칭이 존재하면 LLC는 명목 파라미터 수보다 작아진다. - **정규화와 홀로노믹 제약**: 정규화 연산은 입력을 특정 매니폴드에 투사한다. 이 매니폴드는 ‘홀로노믹(holonomic)’ 제약으로 불리며, 물리학에서 시스템의 자유도를 제한하는 제약과 유사하다. 2. **기하학적 모델링** - 입력 매니폴드 M⊂ℝ^d 의 선형 스팬 차원을 d_s=dim(span(M)) 라 정의한다. - 가중치 행렬 W∈ℝ^{m×d} 가 M 위에서 작동할 때, W의 열 중 d−d_s 개는 M에 대해 전혀 영향을 미치지 않는다. 이를 **대칭 공간** S_M={U∈ℝ^{m×d}|U x=0 ∀x∈M} 으로 정의하고, rank‑nullity 정리를 적용해 dim(S_M)=m(d−d_s) 임을 보인다. 3. **RLCT와 LLC의 정확한 관계** - 손실을 제곱 손실(L2)로 가정하고, 교사 파라미터 W* 가 존재한다고 하면, 영손실 매니폴드 W_0 은 W*+S_M 이다. 따라서 dim(W_0)=m(d−d_s) 이며, 코다임은 codim(W_0)=m d_s. - SLT에 의해 RLCT는 λ=½·codim(W_0)=½·m d_s 가 된다. 전체 파라미터 수에 대한 기준 RLCT λ_0=½·m d와의 차이는 Δλ=½·m(d−d_s) 이며, 이는 바로 LLC 감소량과 일치한다. 4. **LayerNorm vs RMSNorm** - **LayerNorm**: 평균을 0으로 맞추는 단계가 1ᵀx=0 이라는 초평면 제약을 만든다. 이 초평면은 차원 d−1의 선형 매니폴드이므로 d_s=d−1, Δλ=m/2. - **RMSNorm**: 평균을 조정하지 않고 단순히 ‖x‖=√d 이라는 구면에 투사한다. 구면의 선형 스팬은 전체 ℝ^d와 동일하므로 d_s=d, Δλ=0. 5. **기하학적 임계값** - 저자들은 코다임 1 의 매니폴드(즉, 차원 d−1)에서 곡률이 전혀 없는 경우에만 LLC 감소가 발생한다고 주장한다. 미세한 비선형성(곡률)이라도 존재하면 d_s 가 원래 d와 동일하게 되면서 LLC 감소가 사라진다. - 유한 샘플 상황에서는 곡률이 데이터 분포의 어느 부분에 존재하느냐에 따라 임계값이 부드러운 전이 형태를 보이며, 전이 폭은 곡률이 실제로 경험되는 데이터 비율에 비례한다. 6. **Softmax와 ‘스머글드 바이어스’** - Softmax는 입력을 단순체 Σ^{d−1}에 투사한다. 이는 평균이 1인 초평면에 놓이며, 원점 중심으로 이동시키면 평균이 0인 형태가 된다. 이때 발생하는 바이어스 b_smuggled=(1/d)W 1 은 후속 affine layer에 bias가 존재할 경우 추가적인 m‑차원 대칭을 만든다. - 결과적으로, y=Wx+b 구조에서는 Δλ=m/2 가 발생한다. 이는 LayerNorm 후에도 동일하게 기대되지만, 현재 SGLD 기반 LLC 추정이 불안정해 실험적 검증이 미흡하다. 7. **실험 설계와 결과** - **wrLLC 프로토콜**: 다층 네트워크에서 특정 층만을 자유롭게 두고 나머지를 고정함으로써, 해당 층이 단일 선형 모델과 동일한 조건을 만족하도록 만든다. 이를 통해 이론적 예측을 격리시켜 측정한다. - **단일 층 실험**: 선형 teacher‑student 설정에서 LayerNorm, RMSNorm, 그리고 Softmax+bias 조합을 각각 적용하고, LLC를 wrLLC로 측정하였다. 결과는 이론적 예측과 거의 일치했으며, 특히 LayerNorm에서 m/2 감소, RMSNorm에서 변화 없음, Softmax+bias에서 m/2 감소가 확인되었다. - **곡률 전이 실험**: 입력 매니폴드를 점진적으로 비선형(곡률)하게 변형시켜, LLC 감소가 급격히 사라지는 현상을 관찰하였다. 샘플 수가 적을수록 전이가 완만해지는 것이 확인되었다. 8. **한계와 향후 연구** - 현재 증명은 단일 선형 층과 제곱 손실에 한정된다. 다층 비선형 네트워크에 대한 일반화는 conjecture 수준이며, Morse‑Bott 조건을 만족하는지에 대한 엄밀한 검증이 필요하다. - Post‑LayerNorm 상황에서의 ‘스머글드 바이어스’ 효과는 SGLD 추정의 불안정성 때문에 실험적으로 확정되지 않았다. 보다 안정적인 베이지안 추정 방법이 요구된다. - 또한, 실제 대규모 트랜스포머와 같은 복합 아키텍처에서 정규화에 의한 LLC 감소가 학습 역학(예: sink token 형성)과 어떻게 연관되는지에 대한 탐구가 남아 있다. **결론** 정규화 층은 입력 데이터에 기하학적 제약을 부여함으로써 파라미터 공간의 실질적인 자유도를 감소시키고, 이는 베이지안 복잡도 지표인 LLC를 정량적으로 낮춘다. 이 효과는 매니폴드가 선형 평면(affine flat)인지 여부에 따라 이진적으로 나타나며, 실험적으로도 재현 가능함을 보였다. 논문은 정규화 선택이 모델 복잡도와 일반화에 미치는 영향을 기하학적·베이지안 관점에서 새롭게 조명함으로써, 설계 단계에서 정규화 기법을 선택할 때 이론적 근거를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기