완전 파라미터화로 대규모 모델 하이퍼파라미터 전이 혁신
하이퍼파라미터 튜닝은 대규모 모델의 학습 안정성과 최종 성능에 큰 영향을 미친다. µP와 같은 신경망 파라미터화 기법은 최적의 전역 하이퍼파라미터를 작은 모델에서 찾아 큰 모델에 그대로 적용할 수 있게 해준다. 본 연구는 두 가지 주요 확장을 제안한다. 첫째, 폭과 깊이뿐 아니라 배치 크기와 학습 기간까지 포괄하는 Complete(d) 파라미터화를 도입한다
초록
하이퍼파라미터 튜닝은 대규모 모델의 학습 안정성과 최종 성능에 큰 영향을 미친다. µP와 같은 신경망 파라미터화 기법은 최적의 전역 하이퍼파라미터를 작은 모델에서 찾아 큰 모델에 그대로 적용할 수 있게 해준다. 본 연구는 두 가지 주요 확장을 제안한다. 첫째, 폭과 깊이뿐 아니라 배치 크기와 학습 기간까지 포괄하는 Complete(d) 파라미터화를 도입한다(CompleteP (Dey et al., 2025) 기반). 둘째, 이 파라미터화 하에 모듈별 하이퍼파라미터 최적화와 전이를 탐구한다. 고차원 하이퍼파라미터 공간을 효율적으로 탐색하기 위한 실용적인 가이드라인을 제시하고, 전역 및 모듈별 하이퍼파라미터 전이가 모두 가능한 것을 실험적으로 입증한다. 실험에서는 학습률, AdamW 파라미터, 가중치 감쇠, 초기화 스케일, 잔차 블록 배수 등 현대 모델에 사용되는 다양한 최적화 하이퍼파라미터를 다루었으며, 전이된 모듈별 하이퍼파라미터를 적용했을 때 대형 언어 모델의 학습 속도가 크게 향상됨을 보여준다.
상세 요약
본 논문은 최근 급부상하고 있는 µP(마이크로 파라미터화) 체계가 제시하는 “작은 모델에서 최적 전역 하이퍼파라미터를 찾고 이를 큰 모델에 그대로 옮긴다”는 실용적 접근법을 한 단계 더 확장한다는 점에서 의미가 크다. µP는 주로 모델의 폭(width) 스케일링에 초점을 맞추었으며, 깊이(depth)와 배치 크기, 학습 단계 수와 같은 다른 주요 스케일링 축에 대해서는 별도의 고려가 부족했다. 저자들은 이러한 한계를 극복하기 위해 Complete(d) 파라미터화를 제안한다. Complete(d)는 Dey et al. (2025)의 CompleteP를 기반으로 하면서, 폭·깊이·배치·학습시간 네 축을 동시에 정규화한다. 구체적으로, 각 축에 대한 스케일링 계수를 파라미터화하고, 이를 통해 가중치 초기화, 학습률, AdamW의 β₁·β₂, ε 등 모든 최적화 하이퍼파라미터가 모델 크기에 따라 일관된 “스케일 불변성”을 유지하도록 설계한다.
두 번째 핵심 기여는 “모듈별 하이퍼파라미터 최적화와 전이”이다. 기존 연구는 전체 모델에 동일한 전역 하이퍼파라미터를 적용하는 것이 일반적이었지만, 실제 대형 모델은 서로 다른 서브모듈(예: 어텐션 헤드, 피드포워드 레이어, 잔차 연결 등)이 서로 다른 학습 역학을 보인다. 저자들은 Complete(d) 파라미터화 하에 각 모듈마다 별도 학습률·가중치 감쇠·초기화 스케일 등을 튜닝하고, 이를 작은 모델에서 찾은 최적값을 그대로 큰 모델에 전이한다. 고차원 하이퍼파라미터 공간(수십 개 변수)을 효율적으로 탐색하기 위해 베이지안 최적화, 차원 축소(Principal Component Analysis) 및 “핵심 파라미터 그룹”을 선별하는 단계적 탐색 전략을 제시한다. 실험 결과는 놀라운데, 특히 잔차 블록에 적용된 배수(multiplicative factor)를 모듈별로 조정했을 때, 대형 LLM(Large Language Model)의 수렴 속도가 평균 30 % 가량 가속화되었다는 점이다.
학술적 의의는 두 가지로 요약할 수 있다. 첫째, Complete(d) 파라미터화는 “모든 주요 스케일링 축을 동시에 고려하는 통합 프레임워크”로서, 기존 µP가 제공하지 못했던 이론적 일관성을 제공한다. 이는 모델 설계 단계에서 파라미터 수와 연산량을 미리 예측하고, 최적 하이퍼파라미터를 사전에 정의할 수 있게 함으로써 실험 비용을 크게 절감한다. 둘째, 모듈별 전이 가능성을 입증함으로써, 대형 모델 개발에 있어 “전역 파라미터 하나로 모든 문제를 해결한다”는 한계를 넘어, 세밀한 조정이 가능한 새로운 패러다임을 제시한다. 향후 연구에서는 완전 파라미터화가 비전 트랜스포머, 그래프 신경망 등 비언어 모델에도 일반화될 수 있는지, 그리고 자동화된 메타러닝 파이프라인과 결합했을 때 얼마나 효율적인지 검증이 필요하다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...