고품질 데이터 커리큘럼과 학습률 스케줄의 조화가 대형 언어 모델 성능을 끌어올린다

읽는 시간: 5 분
...

📝 Abstract

Due to the scarcity of high-quality data, large language models (LLMs) are often trained on mixtures of data with varying quality levels, even after sophisticated data curation. A natural approach to better leverage high-quality data is curriculum-based pretraining, where the model is trained on data sorted in ascending order of quality as determined by a quality metric. However, prior studies have reported limited improvements from such curriculum-based pretraining strategies. This work identifies a critical factor constraining these methods: the incompatibility between the ascending data quality order and the decaying learning rate (LR) schedule. We find that while curriculum-based training substantially outperforms random shuffling when using a constant LR, its advantage diminishes under standard LR decay schedules. Our experiments show this incompatibility can be mitigated by two simple strategies: (1) employing a more moderate LR decay schedule, where the final LR is only moderately smaller than the peak LR, and (2) replacing LR decay with model averaging, i.e., computing a weighted average of the final few checkpoints. By combining these strategies, we improve the average score on a suite of standard benchmarks by 1.64% over random shuffling, without additional data refinement. Validated on 1.5B-parameter models trained over 30B tokens with various data-quality metrics, our findings call for a re-evaluation of curriculum-based LLM pretraining and underscore the potential of co-designing data curricula with optimization methods.

💡 Analysis

이 논문은 대형 언어 모델(LLM) 사전학습 과정에서 데이터 품질과 학습률 스케줄 간의 상호작용이 성능에 미치는 영향을 심도 있게 탐구한다. 기존에는 고품질 데이터를 우선적으로 학습시키는 커리큘럼 기반 접근법이 직관적으로 기대되는 효과를 충분히 발휘하지 못한다는 보고가 있었으며, 이는 연구자들이 커리큘럼 설계 자체에 회의감을 갖게 만들었다. 저자들은 이러한 현상의 근본 원인을 “학습률 감소 스케줄”에 두고, 고품질 데이터가 학습 초기에 제공될 때 높은 학습률이 적용되고, 이후 낮은 품질 데이터가 학습될 때는 이미 학습률이 크게 감소된 상황이 발생한다는 점을 지적한다. 이는 모델이 초기 단계에서 충분히 높은 학습률을 이용해 고품질 데이터로부터 강력한 표현을 학습할 수 있지만, 이후 학습률이 급격히 낮아지면서 낮은 품질 데이터가 모델 파라미터에 미치는 영향이 제한적이게 만든다. 결과적으로 커리큘럼의 이점이 사라지는 것이다.

이를 해결하기 위해 제안된 두 가지 전략은 매우 실용적이다. 첫 번째는 “완만한 학습률 감소”로, 최종 학습률을 피크 학습률에 가깝게 유지함으로써 전체 학습 과정 동안 일정 수준 이상의 학습률을 보장한다. 이는 고품질 데이터와 저품질 데이터 모두가 충분히 학습에 기여할 수 있는 환경을 만든다. 두 번째 전략인 “모델 평균화”는 학습률 감소 대신 여러 체크포인트를 가중 평균하여 최종 모델을 구성한다는 아이디어다. 이 방법은 학습률 스케줄에 의존하지 않으면서도 여러 단계에서 학습된 파라미터를 통합함으로써 일반화 성능을 향상시킨다. 두 전략을 동시에 적용했을 때, 저자들은 1.5 B 파라미터 모델을 30 B 토큰 규모의 데이터로 학습했음에도 불구하고, 기존 무작위 셔플링 대비 평균 1.64%의 점수 상승을 기록했다. 이는 데이터 커리큘럼이 실제로 모델 성능에 긍정적인 영향을 미칠 수 있음을 강력히 증명한다.

또한, 실험에 사용된 데이터 품질 측정 지표가 다양함을 강조함으로써, 제안된 방법론이 특정 품질 메트릭에 국한되지 않고 일반화 가능함을 보여준다. 이는 실제 산업 현장에서 다양한 품질 평가 기준을 적용하는 경우에도 동일한 전략을 활용할 수 있음을 의미한다. 한편, 연구는 “학습률 감소와 데이터 커리큘럼의 불일치”라는 새로운 관점을 제시함으로써, 최적화 스케줄 설계와 데이터 선택 전략을 공동으로 고려해야 함을 시사한다. 이는 앞으로 LLM 사전학습 파이프라인을 설계할 때, 학습률 스케줄링, 데이터 필터링, 커리큘럼 설계가 서로 독립적인 요소가 아니라 상호 보완적인 요소로 다루어져야 함을 의미한다.

비판적으로 보면, 논문은 주로 1.5 B 규모 모델과 30 B 토큰이라는 비교적 제한된 실험 설정에 기반하고 있다. 더 큰 규모(수십억~수백억 파라미터) 모델이나 다양한 도메인(코드, 의료, 법률 등)에서의 검증이 추가된다면, 제안된 전략의 보편성을 더욱 확고히 할 수 있을 것이다. 또한, 학습률 감소 스케줄을 완만하게 만드는 것이 학습 비용을 증가시킬 가능성도 존재하므로, 실제 서비스 환경에서의 비용-효율성 trade‑off에 대한 논의가 필요하다. 그럼에도 불구하고, 이 연구는 커리큘럼 기반 사전학습이 “학습률 스케줄”이라는 숨은 변수에 의해 억제될 수 있음을 최초로 실증하고, 간단하면서도 효과적인 해결책을 제시함으로써 LLM 연구 커뮤니티에 중요한 인사이트를 제공한다.

📄 Content

제목: 고품질 데이터 커리큘럼과 학습률 스케줄의 조화가 대형 언어 모델 성능을 끌어올린다

초록
고품질 데이터가 부족한 상황에서 대형 언어 모델(LLM)은 정교한 데이터 정제 과정을 거친 뒤에도 품질이 서로 다른 데이터를 혼합해 학습한다. 고품질 데이터를 보다 효과적으로 활용하기 위한 자연스러운 접근법은 데이터 품질을 기준으로 오름차순 정렬한 커리큘럼 기반 사전학습이다. 그러나 기존 연구에서는 이러한 커리큘럼 기반 학습이 제한적인 향상만을 보인다고 보고하였다. 본 연구는 그 원인을 학습률(LR) 감소 스케줄과 데이터 품질 오름차순 순서 사이의 불일치에 있다고 규명한다. 일정한 LR을 사용할 경우 커리큘럼 기반 학습은 무작위 셔플링보다 크게 우수하지만, 일반적인 LR 감소 스케줄을 적용하면 그 이점이 사라진다. 이를 완화하기 위한 두 가지 간단한 전략을 제시한다: (1) 최종 LR이 피크 LR보다 크게 차이 나지 않는 완만한 LR 감소 스케줄을 채택하고, (2) LR 감소 대신 모델 평균화(마지막 몇 개 체크포인트의 가중 평균)를 적용한다. 이 전략들을 결합하면 표준 벤치마크에서 무작위 셔플링 대비 평균 1.64% 점수 향상을 달성했으며, 추가 데이터 정제 없이도 1.5 B 파라미터 모델을 30 B 토큰에 걸쳐 학습한 결과를 검증하였다. 연구 결과는 커리큘럼 기반 LLM 사전학습을 재평가하고, 데이터 커리큘럼과 최적화 방법을 공동 설계하는 가능성을 강조한다.

본 논문은 다음과 같은 주요 기여를 한다. 첫째, 커리큘럼 기반 사전학습이 기존 학습률 감소 스케줄과 충돌하여 기대 이하의 성능을 보이는 원인을 체계적으로 분석하였다. 둘째, 학습률 스케줄을 완만하게 조정하거나 모델 평균화를 적용함으로써 이 충돌을 효과적으로 해소하는 두 가지 실용적인 방법을 제안하였다. 셋째, 다양한 데이터 품질 메트릭을 사용한 1.5 B 파라미터 모델 실험을 통해 제안된 방법이 데이터 종류와 품질 평가 기준에 관계없이 일관된 성능 향상을 제공함을 입증하였다. 마지막으로, 커리큘럼 설계와 최적화 스케줄을 공동으로 고려해야 한다는 새로운 설계 패러다임을 제시함으로써 향후 대규모 언어 모델 학습 파이프라인에 중요한 지침을 제공한다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키