입력 시 스케일링: 잡음과 무관성을 활용한 추론 성능·효율 대폭 향상
초록
본 논문은 고품질 소규모 데이터만으로도 강력한 추론을 구현할 수 있다는 “Less‑Is‑More” 현상을 확장한다. 질의에 인격(persona) 컨텍스트를 의도적으로 삽입해 잡음 수준을 조절하고, 고품질(LIMO)과 저품질(OpenThought) 데이터셋을 비교한다. 실험 결과, 훈련·테스트 단계 모두에서 동일한 유형의 컨텍스트(관련·무관·무작위)를 적용하면 성능이 크게 상승하며, 특히 저품질 데이터가 대형 모델에선 어려운 문제에서 더 높은 점수를 얻는다. 이를 바탕으로 “Input‑Time Scaling”을 제안해, 작은 저품질 데이터와 컨텍스트 설계를 결합하면 최소 인력으로도 AIME24/25에서 76.7% pass@1( Qwen2.5‑32B)와 90%/80% (DeepSeek‑R1‑Distill‑Qwen‑32B)를 달성한다.
상세 분석
이 연구는 LLM의 추론 능력이 반드시 방대한 고품질 데이터에 의존하지 않는다는 가설을 실험적으로 검증한다. 핵심 방법론은 ‘persona‑query relevance’를 잡음의 정량적 지표로 활용하는 것이다. 구체적으로 네 가지 전략을 정의한다: Persona‑None(N) – 원본 질의 그대로, Persona‑Similar(S) – 질의와 의미적으로 연관된 인격, Persona‑Dissimilar(D) – 질의와 무관한 인격, Persona‑Random(R) – 무작위 도메인의 인격. 각 전략은 질의 앞에 해당 인격 설명을 삽입하고, 원본 CoT와 정답은 그대로 보존한다. 이렇게 생성된 네 개의 변형 데이터셋을 LIMO(고품질, <1K)와 OpenThought(저품질, >1M) 두 베이스셋에 적용한다.
훈련 설정은 Qwen2.5‑32B, DeepSeek‑R1‑Distill‑Qwen, Llama3 등 32B 규모 모델을 중심으로 240 스텝, 배치 48, 학습률 5e‑6의 표준 파인튜닝을 수행한다. 테스트는 AIME24/25를 주축으로 Math500, GPQA를 보조로 사용하며, 각 테스트 데이터도 동일한 네 가지 persona 변형을 적용한다. 평가 지표는 pass@1(32B 모델은 greedy, 소형 모델은 4‑샘플 평균)이며, 평균(avg)과 AIME 전용 평균(avg2) 두 축으로 결과를 집계한다.
실험 결과는 세 가지 주요 인사이트를 제공한다. 첫째, 잡음(특히 D와 R) 삽입이 성능 저하가 아니라 오히려 일반화 능력을 향상시킨다. LIMO에서는 R/D 전략이 baseline(N) 대비 avg 8% 상승, OT에서는 동일 전략이 avg 18%·avg2 35%까지 상승한다. 둘째, 훈련‑테스트 단계에서 동일한 persona 전략을 유지하는 ‘training‑testing co‑design’이 가장 큰 시너지 효과를 만든다. 예를 들어, S‑D 조합이 전체 평균에서 최고를 기록한다. 셋째, 데이터 품질과 모델 용량 사이의 트레이드오프가 명확히 드러난다. 고품질 데이터는 작은 모델이나 쉬운 문제에서 유리하지만, 대형 모델이 어려운 수학 문제를 풀 때는 저품질 대규모 데이터가 더 높은 점수를 제공한다. 이는 모델이 풍부한 다양성과 잡음 속에서 더 강건한 추론 경로를 학습함을 시사한다.
또한 토큰 레벨 분석을 통해, persona 삽입이 ‘thinking tokens’를 늘리면서도 최종 답변 길이를 감소시켜 추론 효율성을 동시에 개선한다는 점을 확인한다. 즉, 잡음이 단순히 방해가 아니라 모델이 더 많은 내부 연산을 수행하도록 유도하는 촉매 역할을 한다.
이러한 발견을 종합해 저자들은 ‘Input‑Time Scaling’이라는 프레임워크를 제안한다. 핵심은 (1) 작은 규모의 저품질 데이터만으로도 충분히 학습하고, (2) 훈련·테스트 모두에서 동일한 persona 컨텍스트를 적용해 모델이 잡음에 익숙해지게 함으로써, (3) 인간의 데이터 큐레이션 비용을 크게 절감하면서도 추론 성능·효율을 극대화한다는 것이다. 최종적으로 Qwen2.5‑32B‑Instruct는 1K 예시만 사용해 AIME24/25에서 76.7% pass@1를 달성했으며, DeepSeek‑R1‑Distill‑Qwen‑32B는 각각 90%와 80%를 기록해 동일 모델군 중 최고 기록을 세웠다. 데이터, 파이프라인, 체크포인트는 모두 오픈소스로 제공돼 재현성과 확장성을 확보한다.
댓글 및 학술 토론
Loading comments...
의견 남기기