- Title: Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice
- ArXiv ID: 2512.24503
- 발행일: 2025-12-30
- 저자: Jiachen T. Wang, Tong Wu, Kaifeng Lyu, James Zou, Dawn Song, Ruoxi Jia, Prateek Mittal
📝 초록
고품질 데이터는 현대 AI 개발의 주요 드라이버로 부상하였습니다. 프런티어 AI 모델을 훈련시키기 위한 데이터 레시피를 구성하는 것은 필수적인 결정 과정이지만, 이에 대한 이론적 지침이나 인간의 직관은 거의 없습니다. 따라서 실무자들은 실제 모델 훈련을 통해 데이터 품질을 평가해야 합니다. 본 논문에서는 작은 '프록시 모델'을 사용하여 대규모 모델 훈련에 필요한 계산 부담을 크게 줄이는 방법과 이를 통한 실용적인 개발 워크플로우를 제안합니다.
💡 논문 해설
본 논문은 고품질 데이터의 중요성을 강조하며, 현대 AI 개발에서 데이터 품질 평가와 최적화를 위한 새로운 접근 방식을 제시하고 있습니다. 기존에는 프록시 모델을 사용하여 각 데이터 레시피를 평가하였지만, 이 과정에서 고정된 하이퍼파라미터 설정을 사용함으로써 실제 AI 개발 워크플로우와 일치하지 않는 결과가 발생할 수 있음을 지적합니다. 이를 해결하기 위해 작은 학습률을 사용하여 프록시 모델을 훈련시키는 방법을 제안하고, 이 방식이 대규모 모델에 대한 최적화된 하이퍼파라미터 설정과 어떻게 연결되는지 분석합니다.
📄 논문 발췌 (ArXiv Source)
# 서론
고품질 데이터는 현대 AI 개발의 주요 드라이버로 부상하였습니다. 프런티어 AI 모델을 훈련시키기 위한 데이터 레시피를 구성하는 것은 필수적인 결정 과정이지만, 이에 대한 이론적 지침이나 인간의 직관은 거의 없습니다. 따라서 실무자들은 실제 모델 훈련을 통해 데이터 품질을 평가해야 합니다.
프록시 모델 기반 기술. 데이터 레시피를 선택하는 가장 직접적인 접근 방식은 각 후보 레시피에 대해 전체 스케일의 모델을 훈련시키고 성능을 비교하는 것입니다. 그러나 이는 대규모 모델 훈련에 있어서 금전적으로 매우 비용이 많이 듭니다. 연구자들과 실무자들은 더 작은 “프록시 모델"을 사용하여 각 데이터셋의 전체 스케일 훈련에 대한 효율적인 예측을 수행하는 방법으로 계산 부담을 크게 줄였습니다. 계산 효율성과 구현 용이성을 고려할 때, 프록시 모델 실험은 많은 유명한 모델들과 오픈소스 데이터셋의 데이터 결정에 대한 지침이 되었습니다.
실용적 워크플로우에서의 데이터 레시피 압축 재고. 데이터 품질의 중요성으로 인해, 현대 AI 개발팀은 작업 분담을 통해 운영됩니다: 전문화된 데이터 팀은 훈련 데이터 레시피를 구색하고 최적화한 후, 고품질 데이터셋을 추천하며, 이는 모델 훈련 팀이 특정 데이터셋에 대해 하이퍼파라미터 등을 최적화하는 과정의 일부가 됩니다. 그러나 기존의 데이터 중심 연구는 실용적인 워크플로우와 근본적으로 연결되지 않은 방식으로 데이터 레시피를 평가하고 비교합니다. 대부분의 데이터 중심 문헌과 벤치마크는 공정성을 위해 후보 데이터셋을 고정된 훈련 하이퍼파라미터에서 평가하지만, 실제 모델 훈련은 각 데이터셋에 특화된 최적화된 하이퍼파라미터 구성으로 수행됩니다. 따라서 우리는 데이터 중심 AI의 정제된 목표를 제안합니다: 최적화된 하이퍼파라미터에서 성능을 최대한 높이는 데이터 레시피를 찾는 것, 실제 사용 방법을 반영합니다.
프록시 모델을 사용한 산업 실무에서의 데이터 레시피 압축 개요. 왼쪽: 데이터 팀은 동일한 하이퍼파라미터로 훈련된 작은 규모 프록시 모델을 사용하여 각 후보 데이터셋을 평가하고 최상의 성능을 보이는 데이터 레시피를 추천합니다. 오른쪽: 모델 훈련 팀은 대규모 목표 모델에서 성능을 최적화하기 위해 광범위한 하이퍼파라미터 튜닝을 수행합니다.23개의 데이터 레시피가 프록시 모델 (GPT2-125M)과 대상 모델 (Pythia-1B)에서 평가된 검증 손실 순위, 여기서 대상 모델은 데이터셋별로 광범위한 하이퍼파라미터 튜닝을 거칩니다. 순위는 Pile의 검증 분할에 대한 손실로 결정됩니다.
왼쪽: 프록시 모델이 표준 학습률 (3×10-4)로 훈련될 때, 데이터 레시피 순위는 프록시와 대상 스케일 간에 심각한 불일치를 보입니다. 이러한 오더링은 부적절한 데이터 레시피 압축을 초래할 수 있습니다.
오른쪽: 프록시 모델이 매우 작은 학습률 (1×10-6)로 훈련될 때, 데이터셋 순위는 스케일에 따라 일관되게 유지됩니다.
프록시 훈련 구성의 미세한 변동은 데이터 레시피 순위를 변경할 수 있습니다 (섹션 12). 정제된 목표는 프록시 모델 기반 기술이 성공하기 위한 중요한 요구 사항을 부과합니다: 작은 규모의 훈련 실행을 통해 식별된 최상의 데이터 레시피가 (i) 대상 크기로 확대되고 (ii) 훈련 팀이 훈련 하이퍼파라미터를 최적화한 후에도 여전히 우수해야 합니다. 그러나 현재 프록시 모델 기반 방법으로는 이 목표를 달성하는 데 어려움이 있습니다. 작은 프록시 모델은 고정된, 직관적으로 선택된 하이퍼파라미터 구성에서 후보 데이터셋을 평가하고 순위를 매깁니다. 훈련 하이퍼파라미터와 데이터 분포 사이의 강력한 상호 종속성으로 인해 각 데이터 레시피는 자체 최적의 훈련 구성이 필요합니다. 이러한 작은 하이퍼파라미터 조정으로 인해 같은 프록시 스케일에서 오더링이 붕괴되면, 더 큰 스케일에서 넓은 탐색을 거의 확실히 순위를 재배치할 것입니다.
작은 학습률로 프록시 모델 훈련: 이론적으로 근거한 패치 (섹션 13). 장기적으로 데이터와 훈련 하이퍼파라미터 사이의 긴밀한 상호 작용은 이 두 구성 요소를 공동으로 최적화해야 한다는 것을 시사하지만, 단계별로 따로 조정하는 것이 아닙니다. 그러나 실무자들은 여전히 작은 규모 실험을 통해 데이터 팀이 데이터 커리레이션 파이프라인을 평가하고 최적화할 수 있는 즉시 사용 가능한 패치를 필요로 합니다. 우리는 간단하면서도 효과적인 대안을 제안합니다: 프록시 모델을 매우 작은 학습률로 훈련시키는 것입니다. 이 접근 방식은 두 가지 주요 경험적 관찰에서 영감을 받았습니다: (i) 동일한 모델 아키텍처 내에서는 데이터셋의 성능이 작은 학습률과 최적화된 성능 사이에 강력하게 상관관계가 있으며; (ii) 데이터 레시피 순위는 작은 규모에서 큰 규모로 확대될 때에도 일관되게 유지됩니다. 우리는 무작위 특성 모델을 대상으로 이러한 경험적 결과에 대한 엄밀한 증명을 제공합니다. 구체적으로, 네트워크 너비가 커질수록 충분히 작은 학습률로 훈련하면 데이터셋의 순위를 유지하며 무한대 너비 극한에서 최적의 성능 순위로 수렴한다는 것을 증명합니다. 우리는 이론과 실제 직관을 통해 이러한 작은 학습률 제도를 더욱 구체화합니다.
실험. 우리는 포괄적인 실험을 통해 작은 학습률 전략의 효과성을 경험적으로 평가했습니다. 여러 아키텍처, 스케일 및 데이터 커리레이션 시나리오를 포함하는 이러한 실험은 프록시 모델이 하이퍼파라미터 튜닝된 더 큰 대상 모델로 이전될 때 성능이 크게 향상되었음을 보여줍니다. 그림 2은 이러한 개선을 설명합니다: GPT2-125M과 Pythia-1B 간의 데이터 레시피 순위에 대한 스피어만 등급 상관관계는 GPT2이 3×10-4 대신 10-5의 작은 학습률로 훈련될 때 253개의 데이터 레시피 쌍에 대해 0.95 이상으로 개선됩니다.
배경: 프록시 모델을 사용한 데이터 커리레이션 지침
이 섹션에서는 대규모 모델 훈련을 위한 데이터 레시피 압축 문제를 형식화합니다.
세팅 및 표기법. 대상 모델 아키텍처 $`\theta_{\mathrm{tgt}}`$와 후보 데이터셋의 풀 $`\mathcal{D}= \{D_1, D_2, \ldots, D_n\}`$, 여기서 각 데이터셋은 다른 데이터 레시피 (예: 다른 커리레이션 알고리즘, 필터 임계값 또는 도메인 혼합 비율)에 따라 생성됩니다. 데이터 레시피 압축의 목표는 검증 세트 $`D_{\mathrm{val}}`$에서 모델 성능을 최대화하는 최적의 데이터셋 $`D_{i^*} \in \mathcal{D}`$를 식별하는 것입니다. 손실 함수 $`\ell`$가 주어졌다면, $`\ell_{\mathrm{val}}(\theta) := \ell(\theta; D_{\mathrm{val}})`$는 모델 $`\theta`$의 검증 손실을 나타냅니다. 모델 성능은 훈련 데이터와 하이퍼파라미터 (예: 학습률, 배치 크기)에 매우 의존하므로, 데이터셋 $`D`$ 및 하이퍼파라미터 구성 $`\lambda`$를 사용한 트레이닝된 모델을 $`\theta(D; \lambda)`$로 기술합니다.[^3]
작은 프록시 모델을 이용한 현재의 데이터 레시피 압축 실천.
대규모 대상 모델을 각 후보 데이터셋에 대해 훈련시키는 것은 일반적으로 계산적으로 금전적으로 매우 비용이 많이 듭니다. 이 문제를 완화하기 위한 일반적인 방법 중 하나는 작은 “프록시 모델”($`|\mathcal{M}_{\text{proxy}}| \ll |\mathcal{M}_{\text{target}}|`$)을 사용하여 데이터 품질을 예측하고 대규모 트레이닝 실행에서 어떤 데이터 커리레이션 레시피를 사용할지 결정하는 것입니다. 작은 모델은 크게 줄어든 계산 비용으로 반복적인 훈련이 가능하게 하여 다양한 데이터 커리레이션 파이프라인의 압축 연구에 널리 활용됩니다. 현재 실천은 일반적으로 각 $`D_i`$ (또는 그 부분집합)을 고정된 하이퍼파라미터 구성 $`\lambda_0`$로 훈련하고, 작은 모델의 성능 $`\ell_{\text{val}}(\mathcal{M}_{\text{proxy}}(D_i; \lambda_0))`$에 기반하여 데이터셋을 순위 매깁니다.
“고품질 데이터셋” 재고: 실용적인 개발 관점
작은 프록시 모델을 사용한 데이터 레시피 압축이 널리 채택되었음에도 불구하고, 작은 규모 실험에서 얻은 결론을 대규모 생산 훈련으로 신뢰할 수 있게 이전하는 조건에 대한 연구 커뮤니티의 이해는 제한적입니다. 더 큰 모델을 위한 작은 모델 훈련에서 우수하게 보이는 데이터셋이 여전히 최적일지에 대해 탐구하기 전에, 데이터 품질 평가를 위한 원칙적인 목표를 먼저 설정해야 합니다. 즉, 실용적인 모델 개발에서 “고품질 데이터셋"은 무엇을 구성하는가? 본 섹션에서는 실제 워크플로우와 데이터 중심 연구의 표준 평가 프로토콜 사이에 존재하는 미묘한 그러나 중요한 불일치를 논의합니다.
데이터 레시피는 개별적으로 최적화된 훈련 구성에서 평가되어야 합니다.
기존 문헌 (예: )에서는 데이터 중심 알고리즘의 효과성이 고정된 하이퍼파라미터 세트로 커리레이션된 데이터셋에 대규모 대상 모델을 훈련시키는 것으로 일반적으로 평가됩니다. 그러나 실제 AI 개발 파이프라인에서 하이퍼파라미터 튜닝은 수행되며, 이 하이퍼파라미터는 커리레이션된 데이터셋에 맞춤화됩니다. 예를 들어 GPT-3는 기울기 노이즈 스케일 (GNS)을 기반으로 배치 크기를 결정하며 이것은 데이터 특정 통계입니다. 마찬가지로 학습률과 최적화 알고리즘은 일반적으로 데이터 종속적인 방식으로 조정됩니다. 따라서 우리는 더 합리적인 목표는 선택된 데이터셋의 성능을 데이터셋에 맞춤화된 하이퍼파라미터 아래에서 최적화하는 것입니다. 이러한 정제된 목표는 모델 훈련에서 데이터와 훈련 하이퍼파라미터 사이의 강력한 상호작용을 인정하며, 데이터 커리레이션 전략은 훈련 데이터의 최대 성능을 최적화해야 함을 강조합니다. 이는 정의된, 잠재적으로 부적합한 하이퍼파라미터 구성에서의 성능을 최적화하는 것이 아닙니다. 공식적으로, 우리는 다음과 같이 데이터 레시피 압축 문제를 형식화합니다: $`D_{i^*} := \argmin_{i \in [n]} \min_{\lambda \in \Lambda} \ell_{\mathrm{val}}(\theta(D_i; \lambda))`$, 여기서 $`\Lambda`$는 사용 가능한 컴퓨팅 예산 등으로 제한되는 예정된 하이퍼파라미터의 가능 공간입니다.
프록시 모델의 하이퍼파라미터 변동에 대한 취약성
우리의 정제된 목표인 자체 최적화된 하이퍼파라미터 아래에서 가장 우수한 성능을 보이는 데이터셋 식별을 고려할 때, 현재 프록시 모델 실천이 이 목표와 일치하는지 검토합니다. 표준 실천은 각 후보 데이터셋을 단일, 직관적으로 선택된 하이퍼파라미터 구성으로 훈련시키는 것입니다. 우리의 조사에는 우려할 만한 결과가 있습니다: 학습률의 작은 변화만으로도 소규모 프록시 훈련 실행에서 도출된 결론을 뒤집을 수 있습니다. 따라서 현재 실천은 동일한 프록시 모델에 대한 최고 잠재력을 갖는 데이터셋 식별 실패할 가능성이 있으며, 적절하게 하이퍼파라미터 튜닝이 적용되는 더 큰 모델로 확대될 때 더욱 부적합한 데이터셋을 선택하는 경향이 있습니다.
실험: 학습률 민감성은 프록시 모델의 신뢰성을 훼손할 수 있습니다.
우리는 소규모 실험에서 도출된 결론에 영향을 미치는 학습률 값의 작은 변동이 어떻게 작용하는지 조사합니다.
그림 [fig:fragility]은 DCLM과 더 엄격한 중복 제거를 거친 그의 변형 버전 (부록 23.1.4 참조)을 비교하여 이 취약성을 보여줍니다.
r0.6
우리는 GPT2-Small (125M)을 각 데이터셋에 대해 실무자가 일반적으로 선택하는 두 가지 유사한 학습률로 훈련시킵니다.
결과는 학습률에 따라 데이터셋 순위가 일관되지 않음을 보여줍니다. 낮은 학습률에서 DCLM이 검증 손실과 하류 벤치마크 모두에서 우수합니다. 그러나 학습률을 약간 높이면 이 성능 순위가 뒤집어집니다.
이 뒤집힘은 DCLM의 상대적으로 느슨한 중복 제거 기준이 더 작은 학습률에 유리하며, 그보다 엄격하게 중복 제거된 변형 버전은 더 큰 학습률에서 더 나은 성능을 보이는 것과 관련이 있습니다.
학습률 선택의 민감성은 소규모 프록시 실험의 주요 한계를 강조합니다: 고정된 구성으로 이루어진 소규모 훈련 실행에서 도출된 결론은 이러한 특정 설정에 과적합될 수 있으며, 대규모 모델 훈련을 확대할 때 부적절한 데이터 커리레이션 결정을 초래할 가능성이 있습니다.
고수준 직관: 고차 효과의 저주.
다양한 학습률이 프록시 모델에서 일관되지 않은 데이터 레시피 순위를 만들어내는 이유에 대한 직감을 얻기 위해, 매우 간단화된 한 단계 경사 하강 설정을 고려해봅니다. 여기서 검증 손실 $`\ell_{\mathrm{val}}`$의 변화량은 타일러 전개를 통해 근사할 수 있습니다:
여기서 $`H_{\ell_{\mathrm{val}}}`$는 검증 손실의 헤시안입니다.
두 데이터셋 $`D_i`$와 $`D_j`$가 각각 훈련 손실 $`\ell_i`$와 $`\ell_j`$를 가지다고 가정합니다. 학습률이 낮을 때, 그 순위는 주로 1차 경사 대렬 항에 의존합니다: $`\nabla \ell_{\mathrm{val}}(\theta) \cdot \nabla \ell_i(\theta)`$ 대비
$`\nabla \ell_{\mathrm{val}}(\theta) \cdot \nabla \ell_j(\theta)`$. 그러나 중간 학습률에서는 2차 항이 중요해집니다. 예를 들어, 1차 경사 대렬 항에서 더 우수한 두 데이터셋 $`D_i`$와 $`D_j`$는 중간 값의 $`\eta`$에서 이 차이가 2차 항에 의해 극복되면 순위가 뒤집어질 수 있습니다. 전체적으로, 순위 변동은