LLM 사전학습을 위한 커리큘럼 학습 분석
초록
본 논문은 14M‑410M 파라미터 규모의 Pythia 모델들을 300B 토큰까지 학습시키며, 연령‑획득(AoA), 단어 빈도, 동사 다양성(VV) 등 세 가지 언어학적 커리큘럼과 무작위 순서를 비교한다. 학습 과정은 공통된 잠재 단계(latent phase)를 따르지만, 커리큘럼은 각 단계 내에서 데이터 노출을 재배치한다. 작은 모델에서는 무작위 순서가 그래디언트 노이즈와 출력 헤드의 스펙트럼 포화가 더 크게 나타나 최종 정확도가 낮으며, 커리큘럼이 이를 완화한다. 규모가 커질수록 이러한 차이는 감소한다. 이론적으로는 난이도 기반 페이싱이 그래디언트 분산을 제어해 최적화 안정성을 높인다는 결과를 제시한다.
상세 분석
논문은 먼저 “학습 단계”라는 개념을 도입하고, Hidden Markov Model(HMM)을 이용해 다양한 데이터 순서 하에서 모델이 거치는 잠재 단계들을 정량화한다. 14M 모델을 기준으로 5개의 상태를 찾았으며, 모든 커리큘럼과 무작위 순서가 동일한 상태 전이 구조를 공유한다는 점을 확인했다. 이는 커리큘럼이 학습 경로 자체를 바꾸는 것이 아니라, 같은 단계 안에서 어느 샘플을 언제 보는지를 조정한다는 의미다.
다음으로 최적화 안정성 지표인 Gradient Noise Scale(GNS)과 출력 헤드의 스펙트럴 포화 정도를 측정했다. 작은 모델(≤160M)에서는 무작위 순서가 GNS 값을 크게 만들었고, 이는 학습 후반부에 그래디언트 신호가 잡음에 압도되어 최적화 효율이 떨어짐을 의미한다. 동시에 출력 헤드의 singular entropy가 감소해, 소프트맥스 병목 현상(softmax bottleneck)으로 인한 저차원 표현 제한이 심화되는 것을 관찰했다. 반면 AoA, Frequency, VV 커리큘럼은 GNS를 낮추고 singular entropy 감소를 완화해, 같은 토큰 수 대비 더 높은 정확도와 낮은 퍼플렉시티를 달성했다.
스케일을 키우면(410M, 1B) 이러한 차이는 점차 사라진다. 큰 모델은 이미 충분한 표현 용량을 가지고 있어 소프트맥스 병목이 제한적으로 작용하고, 그래디언트 분산도 자연히 감소한다. 따라서 커리큘럼의 이점이 축소되는 것이 관찰되었다.
이론적 분석에서는 난이도 점수(d(z))와 페이싱 함수(p(t))를 매개변수화한 샘플링 스킴을 정의하고, 강한 볼록성(strong convexity) 가정 하에 SGD의 안정성 반경이 그래디언트 분산 σ²에 비례한다는 정리를 제시한다(정리 3.2). 무작위 샘플링은 학습이 진행될수록 고난이도 샘플 비중이 늘어나 σ²가 증가할 수 있지만, 커리큘럼은 초기에는 저난이도 샘플만을 노출해 σ²를 억제하고, 점진적으로 난이도를 높여 최적화 안정성을 유지한다는 논리다. 실험 결과는 이 정리를 뒷받침한다.
결론적으로, 커리큘럼은 새로운 학습 단계(phase)를 창출하기보다는 기존 단계 내에서 데이터 노출 순서를 재조정해 그래디언트 노이즈를 감소시키고, 소프트맥스 병목에 따른 스펙트럴 포화를 완화한다. 이러한 효과는 모델 용량이 제한적인 작은 규모에서 가장 크게 나타난다.
댓글 및 학술 토론
Loading comments...
의견 남기기