Mano: 대규모 언어 모델 학습을 위한 회전형 오블리크 최적화기
초록
본 논문은 LLM 학습에 기존 최적화기(AdamW, Muon)의 한계를 보완하고자, 모멘텀을 파라미터의 접공간에 투사하고 회전형 오블리크(Oblique) 매니폴드에 제한하는 새로운 옵티마이저 Mano를 제안한다. 실험 결과 LLaMA와 Qwen3 모델에서 메모리 사용량과 연산 복잡도는 감소하면서도 수렴 속도와 최종 퍼플렉시티 면에서 기존 방법들을 일관되게 능가한다.
상세 분석
Mano는 전통적인 리만 매니폴드 최적화(Riemannian SGD)의 핵심 아이디어를 차용하면서도, 대규모 트랜스포머 파라미터에 적용 가능한 경량화된 변형을 제시한다. 핵심 설계는 세 단계로 구성된다. 첫째, 현재 파라미터 θₜ 에 대해 열‧행 정규화를 수행해 θ̂ₜ = θₜ ⊘ ‖θₜ‖₂,k 와 같이 매니폴드 정규화(N_OB)를 적용한다. 여기서 k 는 현재 스텝이 짝수인지 홀수인지에 따라 열(odd) 혹은 행(even) 정규화를 선택하는 ‘회전 매니폴드’ 전략이다. 둘째, 모멘텀 Mₜ 에 대해 접공간 투사 vₜ = Mₜ − θ̂ₜ ⊙ ⟨Mₜ, θ̂ₜ⟩ₖ 를 수행한다. 이 연산은 매니폴드의 접벡터 공간에 모멘텀을 사영함으로써, 파라미터 업데이트가 매니폴드 표면을 따라 움직이도록 보장한다. 셋째, 사영된 모멘텀 vₜ 에 다시 매니폴드 정규화 v̂ₜ = vₜ ⊘ ‖vₜ‖₂,k 를 적용하고, 최종 업데이트 θₜ₊₁ = θₜ − ηₜ (0.2 √nₖ v̂ₜ + λθₜ) 를 수행한다. 여기서 0.2 √nₖ 는 차원‑스케일링 계수이며, λ는 weight decay이다.
Mano가 선택한 오블리크 매니폴드는 “열당 단위 노름”을 만족하는 행렬 집합으로, 구형(Sphere)이나 스테펠(Stiefel) 매니폴드에 비해 평균 지오데식 거리가 가장 짧아(표 1) 학습 궤적이 더 부드럽고 효율적이라는 실험적 근거를 제공한다. 회전 매니폴드 기법은 열‧행 정규화를 교대로 적용함으로써, 전통적인 오블리크 매니폴드가 열 방향에만 편향되는 문제를 완화하고, Muon이 강조하는 모든 스펙트럼 방향의 균등 탐색을 부분적으로 재현한다.
복잡도 측면에서 Mano는 기존 AdamW가 필요로 하는 2배 메모리(1차·2차 모멘트)와 Muon이 요구하는 행렬 정규화(Newton‑Schulz 반복) 연산을 대체한다. 매 단계마다 두 번의 원소‑단위 정규화와 한 번의 접공간 투사만 수행하므로, 연산량은 O(mn) 수준에 머물며 GPU 메모리 사용량도 크게 감소한다. 이론적으로는 모멘텀의 분산을 감소시켜(정규화된 접공간 사영) 수렴 속도를 가속화하고, 실험에서는 LLaMA‑350M와 1.3B, Qwen3‑0.6B 모델에서 wall‑clock 시간 기준 1.75×·1.38× 빠른 수렴을 기록한다.
또한, Mano는 하이퍼파라미터 추가 없이 기존 AdamW/Muon 파이프라인에 바로 삽입 가능하도록 설계되었으며, PyTorch·TensorFlow와 같은 프레임워크에서 기본 연산만으로 구현할 수 있다. 이는 대규모 분산 학습 환경에서 코드 복잡도와 유지보수 비용을 최소화한다는 실용적 장점을 제공한다.
전체적으로 Mano는 (1) 매니폴드 기반 기하학적 구조 활용, (2) 회전형 정규화로 스펙트럼 균형 확보, (3) 메모리·연산 효율성 확보라는 세 축을 동시에 만족시키며, 기존 스칼라 기반 적응 학습률 기법과 매트릭스‑스펙트럼 정규화 기법 사이의 성능 격차를 크게 줄인다. 향후 연구에서는 다른 매니폴드(예: Grassmann, Low‑rank)와의 조합, 그리고 파인‑튜닝 단계에서의 적용 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기