밀도와 희소성을 아우르는 대형 언어 모델 스케일링 법칙 통합
초록
**
본 논문은 기존에 밀도 전용과 희소성 전용으로 제시된 여러 경험적 스케일링 법칙을 재검토하고, 활성 파라미터 수와 토큰 수만을 변수로 하는 일반화된 스케일링 법칙을 제안한다. 제안된 법칙은 기존의 Hoffmann, Frantar, Abnar 식을 특수 경우로 포함하며, IsoFLOP 실험을 통해 MoE 기반 초대형 모델(예: DeepSeek‑V3)에서도 높은 예측 정확도를 보인다. 이를 통해 주어진 컴퓨팅 예산·데이터 양·희소성 수준에 최적의 모델 크기를 손쉽게 추정할 수 있다.
**
상세 분석
**
논문은 먼저 기존 스케일링 법칙을 체계적으로 정리한다. Kaplan et al. (2020)의 원형은 손실 L을 파라미터 N과 토큰 D의 조합으로 표현했지만, 실제 실험에서는 6 N D FLOP이라는 단순한 컴퓨팅 모델이 적용되었다. Hoffmann et al. (2022)은 이를 확장해 L = e + a N^α + b D^β 형태의 3항식으로 정리했으며, 여기서 e 는 텍스트 엔트로피, α, β는 경험적으로 추정된 지수이다. 이 식은 현재 밀도 모델에 대한 사실상 표준이 되었다.
희소 모델에 대해서는 두 갈래가 있다. 첫째, Frantar et al. (2022)은 비구조적 프루닝을 적용한 모델을 대상으로 S (희소도)와 비활성 파라미터 비율을 도입해 L = e + a(S)(1‑S)^{b(S)} · N^{‑α} + b D^{‑β} 형태를 제안했지만, 실험 범위가 0‑87 % 수준에 머물러 0 % (밀도) 상황에서 Hoffmann 식과 일치하지 않았다. 둘째, Abnar et al. (2023)은 MoE 기반 모델에 대해 S = (E‑K)/E (전문가 대비 활성 전문가 비율) 를 정의하고, 기존 3항식에 두 개의 추가 항 c(1‑S)^λ 와 d(1‑S)^δ N^γ 을 더해 복합적인 비선형 관계를 모델링했다. 이 역시 파라미터와 데이터 항을 중복 사용해 과적합 위험이 존재한다는 비판을 받는다.
저자들은 이러한 문제점을 해결하기 위해 “활성 파라미터 수” N_a = N·(1‑S) (프루닝) 혹은 N·K/E (MoE) 라는 단일 지표를 도입한다. 컴퓨팅 비용은 C = 6 N_a D 로 정의하고, 손실은
L(N_a, D) = e + a N_a^α + b D^β
라는 형태의 3항식으로 일반화한다. 여기서 α, β, a, b, e 는 전체 데이터셋을 이용해 공동으로 학습한다. 이 식은 S = 0 (밀도)일 때 Hoffmann 식과 정확히 일치하고, S > 0 일 때는 활성 파라미터만을 고려함으로써 프루닝·MoE 모두를 동일한 프레임워크에 포함한다.
실험에서는 (1) 기존 법칙과 제안법을 동일한 모델·데이터 조건에서 비교해 평균 제곱오차(MSE)를 측정했으며, 제안법이 1.06 ~ 3.04 (Frantar)보다 낮은 MSE를 기록했다. (2) IsoFLOP 분석을 통해 동일 FLOP 예산 하에서 다양한 희소도에 대한 최적 모델 크기를 도출했으며, 특히 DeepSeek‑V3(671 B 파라미터, 94.49 % 희소)와 같은 초대형 MoE 모델에서도 손실 예측 오차가 5 % 이하로 유지되었다.
또한, 제안법을 이용해 “주어진 토큰 수와 컴퓨팅 예산에 대해 최적의 희소도는 얼마인가?” 라는 역문제도 풀 수 있다. 희소도가 증가하면 활성 파라미터당 FLOP 효율이 높아져 동일 FLOP으로 더 큰 N_a를 확보할 수 있지만, 지나친 희소는 라우팅 오버헤드와 전문가 간 불균형을 초래한다. 저자들은 실험적으로 80 % ~ 95 % 희소 구간이 대부분의 예산에서 최적임을 확인했다.
요약하면, 논문은 “활성 파라미터 수”라는 단일 변수로 밀도·희소 모델을 통합하고, 기존 복잡한 다항식 대신 간결한 3항식으로 높은 예측 정확도와 해석 가능성을 제공한다. 이는 모델 설계 단계에서 사전 비용‑성능 트레이드오프를 정량화하는 데 실용적인 도구가 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기