비유클리드 기울기 잡음 규모를 활용한 적응형 배치 크기 조정
초록
**
본 논문은 사인 기반 최적화(signSGD/Signum)와 스펙트럴 최적화(specSGD/Muon)의 특수한 기하학에 맞춰 비유클리드 형태의 Gradient Noise Scale(GNS)를 정의하고, 이를 실시간으로 추정하는 분산 변분 방법을 제안한다. 제안된 비유클리드 GNS를 이용해 배치 크기를 동적으로 조절하면, 동일한 검증 손실을 유지하면서도 학습 단계 수를 최대 66 %까지 감소시킬 수 있음을 160 M 파라미터 Llama 모델 실험을 통해 입증한다.
**
상세 분석
**
이 연구는 기존 적응형 배치 전략이 SGD의 유클리드(ℓ₂) 기하학에 기반해 GNS를 정의하고, 이를 배치 크기 선택에 활용한다는 점을 비판한다. 그러나 최근 대규모 언어·비전 모델에서는 ℓ_∞ 기반의 signSGD·Signum, 그리고 Schatten‑∞ 기반의 specSGD·Muon과 같이 비유클리드 노름을 사용하는 최적화기가 널리 쓰인다. 이러한 최적화기는 업데이트 방향이 “정규화된” 기울기가 아니라, 각각 좌표 부호(sign) 혹은 행렬의 부호(matsign)와 같은 비선형 변환을 통해 결정된다. 따라서 ℓ₂ 노름을 기준으로 잡음 규모를 측정하면, 실제 최적화 과정에서 발생하는 방향 편향을 과소평가하게 된다.
논문은 이를 해결하기 위해 두 단계의 이론적 기여를 제공한다. 첫째, 일반적인 노름 ‖·‖와 그 쌍대 노름 ‖·‖*에 대해, stochastic steepest descent 방향 pₖ = argmax_{‖p‖≤1}⟨gₖ,p⟩가 만족하는 하한식
E
댓글 및 학술 토론
Loading comments...
의견 남기기