정규화와 최적화의 분리: AdamO로 구현한 직교 동역학
초록
AdamW의 가중치 감쇠가 파라미터의 크기와 방향을 동일하게 제어한다는 근본적인 한계를 지적하고, 크기(반경)와 방향(접선) 업데이트를 완전히 분리하는 AdamO를 제안한다. 반경은 SGD‑style의 순수 L2 감쇠와 곡률 기반 적응 스텝으로 제어하고, 접선은 기존 Adam의 2차 모멘트 프리컨디셔닝을 적용한다. 또한 저차원 파라미터와 스케일 불변 레이어에 대한 특수 처리와 투영을 도입해 학습 안정성과 일반화 성능을 크게 향상시킨다. CIFAR‑100 및 언어 모델 실험에서 AdamO는 AdamW 대비 5%p 이상의 정확도 상승과 더 부드러운 최적화 궤적을 보여준다.
상세 분석
본 논문은 현대 딥러닝 최적화에서 “반경‑접선” 이중 역할을 명확히 구분한다는 점에서 이론적·실용적 기여가 크다. 파라미터 벡터 w는 ‖w‖(용량)과 방향 θ = w/‖w‖(특징) 두 축으로 해석될 수 있는데, 기존 AdamW는 손실 기울기에 의해 자연스럽게 증가하는 반경을 무차별적으로 L2 감쇠로 억제한다. 이는 “Radial Tug‑of‑War”라 부르는 진동 현상을 야기해, 특히 Adam이 유지하는 2차 모멘트 v에 잡음이 섞이면서 접선 방향의 미세한 업데이트가 왜곡된다.
AdamO는 이 문제를 해결하기 위해 세 가지 핵심 메커니즘을 도입한다. 첫째, 반경‑접선 투영 연산 φρ와 φθ를 통해 매 스텝마다 기울기와 모멘트를 각각 반경 성분과 접선 성분으로 명시적으로 분리한다. 여기서 φρ(g) = ⟨g,w⟩/⟨w,w⟩ w, φθ(g)=g−φρ(g) 로 정의되며, 파라미터가 회전함에 따라 이전 모멘트를 재투영해 서브스페이스 간 누수를 방지한다.
둘째, 반경 업데이트는 순수 SGD‑style 스텝 Δwρ = ηρ · φρ(ĥmρ) 로 수행하고, 여기서 ηρ는 곡률 기반 적응 스텝이다. 곡률 프록시 κt = ‖gt−gt−1‖²를 EMA(βτ)로 부드럽게 추정해 목표 곡률 τtarget와 비례시켜 ηρ,t = ηρ·(τt/τtarget)+ε 로 조정한다. 이는 고곡률 구역에서는 스텝을 억제하고, 평탄 구역에서는 가속시켜 반경 진동을 최소화한다.
셋째, 접선 업데이트는 기존 Adam과 동일하게 mθ와 vθ를 유지하되, 최종 Δwθ = ηθ·φθ(ĥmθ)/(√ĥvθ+ε) 로 접선에만 프리컨디셔닝을 적용한다. 이렇게 하면 방향 업데이트는 스케일에 무관하게 정확히 수행된다.
추가적으로 논문은 두 가지 아키텍처‑특화 전략을 제시한다. (1) 저차원 파라미터(bias, scale‑affine 등)는 차원 임계값 dth 이하일 경우 표준 Adam 업데이트만 적용해 계산 효율성을 높인다. (2) 스케일 불변 레이어(BatchNorm, LayerNorm 등)는 반경 스텝이 의미 없으므로 Δw ← Δwθ 로 투영한다. 이는 AdamP와 유사하지만, AdamO의 전반적인 서브스페이스 분리 프레임워크 안에서 자연스럽게 통합된다.
실험 결과는 세 가지 관점에서 설득력을 갖는다. 첫째, CIFAR‑100에서 AdamO는 79.74 % ± 0.09의 최고 정확도를 기록해 AdamW(74.75 %)보다 5 %p 이상 향상된다. 둘째, Ablation 연구에서 곡률‑적응 반경 스텝을 제거하면 정확도가 75.21 %로 급락하고, 차원‑특화 혹은 투영을 제외해도 75.9 % 수준에 머문다. 이는 각각의 구성 요소가 성능에 기여함을 입증한다. 셋째, 시각화된 최적화 궤적과 gradient‑norm, direction‑change, variance 지표에서 AdamO는 반경 진동이 현저히 감소하고, gradient‑norm 변동이 11 % 정도 낮아져 더 부드러운 학습 과정을 보인다.
이러한 설계는 “크기와 방향을 동일하게 다루는” 기존 옵티마이저들의 근본적인 한계를 극복하고, 파라미터 공간의 기하학적 구조를 존중한다는 점에서 의미가 크다. 특히 대규모 언어 모델이나 멀티모달 모델처럼 파라미터 규모가 거대하고 스케일 불변 레이어가 다수 포함된 경우, 반경‑접선 분리와 곡률‑적응 스텝은 학습 안정성과 일반화에 큰 이점을 제공할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기