무작위 특징 모델에서 최적 학습률 스케줄과 스케일링 법칙
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 파워‑law 스펙트럼을 갖는 무작위 특징 모델을 대상으로, SGD 학습 과정에서 최적의 학습률 스케줄을 최적 제어 이론으로 도출한다. 두 가지 과제 난이도(‘easy’와 ‘hard’)에 따라 다르게 나타나는 최적 스케줄 형태—다항식 감쇠와 warm‑up‑stable‑decay—를 제시하고, 배치 크기·모멘텀까지 공동 최적화한 결과를 통해 계산‑최적 스케일링 법칙을 예측한다. 실험적으로도 기존 고정·파워‑law 스케줄보다 더 나은 수렴 속도를 보인다.
상세 분석
본 연구는 먼저 입력 데이터와 라벨을 선형 교사‑학생 설정으로 모델링하고, 특성 행렬 ψ(x)의 고유값이 λ_k∼k^{‑b}, 교사 가중치의 스펙트럼이 (w*k)^2 λ_k∼k^{‑a}라는 파워‑law 형태를 가정한다. 이때 a, b>1은 각각 과제의 난이도와 데이터의 복잡도를 정량화한다. SGD의 평균 동역학을 c{t,k}=E
댓글 및 학술 토론
Loading comments...
의견 남기기