구성 성능 스케일링 법 신경망 기반 예측 모델

구성 성능 스케일링 법 신경망 기반 예측 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전체 학습 구성(모델 크기, 데이터 양, 옵티마이저, 학습률 등)을 입력으로 받아 최종 사전학습 손실을 예측하는 신경망 기반 스케일링 법(CPL)을 제안한다. 기존의 파라미터·데이터 규모만을 고려한 Chinchilla 법보다 20~40% 낮은 오류율을 보이며, 하이퍼파라미터 공동 튜닝과 손실 곡선 예측까지 확장한다.

상세 분석

이 연구는 기존 스케일링 법이 “모델 파라미터 N과 토큰 수 D만을 입력으로 가정하고, 하이퍼파라미터는 최적화된 상태”라는 전제에 의존한다는 한계를 명확히 짚는다. 실제 대규모 사전학습에서는 하드웨어 제약, 비용, 실험 시간 등으로 최적 하이퍼파라미터 탐색이 불가능한 경우가 빈번하다. 따라서 저자들은 전체 학습 구성 C를 그대로 매핑하는 함수 ℱ(C)→P(성능 지표)를 학습하는 것이 필요하다고 주장한다. 함수 형태를 사전에 정의하기 어려운 고차원 비선형 관계를 다루기 위해, 대규모 사전학습 로그(3,000여 개)를 수집하고, 이를 기반으로 사전학습된 대형 언어 모델(Qwen‑3‑1.7B)을 회귀용으로 파인튜닝한다. 입력 피처는 소스 식별자, 모델 아키텍처(N, 레이어 수, 헤드 수, 히든 차원), 데이터 규모(D), 옵티마이저 종류 및 학습률, 배치 크기, 가중치 감쇠 등 정량·정성 정보를 모두 포함한다. 수치형 피처는 두 층 MLP로 임베딩하고, 텍스트형 피처는 기존 토크나이저를 그대로 사용한다. 모델은 최종 손실을 직접 예측하기보다 Chinchilla 법으로부터 얻은 베이스라인 손실을 빼고 잔차를 학습함으로써, N·D에 대한 거친 의존성을 제거하고 순수히 구성‑특이적인 효과를 포착한다. 학습은 두 단계(LP‑FT)로 진행해 초기에는 수치 임베딩과 출력 헤드만 업데이트하고, 이후 전체 파라미터를 미세조정한다. 실험에서는 모델 크기 기준으로 ID(430M 이하)와 OOD(10배 이상 큰 컴퓨트)로 데이터를 분리했으며, OOD 상황에서도 10배 이상의 컴퓨트 규모를 일반화한다. 주요 결과는 다음과 같다. 첫째, 최종 손실 예측에서 MAE가 Chinchilla 대비 StepLaw 데이터셋에서 40% 이상, Marin 데이터셋에서 20% 이상 감소한다. 둘째, 학습률·배치 크기 두 하이퍼파라미터를 공동 최적화했을 때, 기존 하이퍼파라미터 스케일링 법(리·등)의 성능과 동등하거나 약간 앞선 결과를 얻는다. 셋째, 중간 손실을 여러 시점에 대해 예측함으로써 전체 손실 곡선을 재구성할 수 있으며, 옵티마이저 종류에 따른 곡선 형태 차이도 정확히 포착한다. 마지막으로, 언어 모델 기반 회귀기가 XGBoost 등 전통적인 트리 기반 모델보다 높은 정확도를 보이며, 다양한 구성 요소를 자연스럽게 결합할 수 있다는 장점을 확인한다. 이와 같이 NCPL은 “구성‑성능 매핑”이라는 새로운 패러다임을 제시하고, 향후 공개된 학습 로그가 늘어날수록 더욱 강력한 메타‑모델로 진화할 가능성을 열어준다.


댓글 및 학술 토론

Loading comments...

의견 남기기