로직스-STEM 실패Driven 후속훈련과 문서지식 강화를 통한 LLM 추론 지원

2026년 02월 04일

읽는 시간: 8 분

...

#paper #AI 요약

📝 원문 정보

- Title: Logics-STEM Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement
- ArXiv ID: 2601.01562
- 발행일: 2026-01-04
- 저자: Mingyu Xu, Cheng Fang, Keyue Jiang, Yuqian Zheng, Yanghua Xiao, Baojian Zhou, Qifang Zhao, Suhang Zheng, Xiuwen Zhu, Jiyang Tang, Yongchi Zhao, Yijia Luo, Zhiqi Bai, Yuchi Xu, Wenbo Su, Wei Wang, Bing Zhao, Lin Qu, Xiaoxiao Xu

📝 초록

이 보고서에서는 추론 모델을 훈련시키는 데 필요한 데이터-알고리즘 공통 설계 엔진에 대해 이론적이고 공학적인 관점에서 다룹니다. 특히, 기존의 SFT-RL 파이프라인을 분포 일치 문제로 정식화하고 실패 중심 후 훈련 프레임워크를 설계하여 모델의 추론 능력을 개선하는 방법을 제안합니다.

💡 논문 해설

1. **데이터와 알고리즘의 통합**: 기존의 SFT-RL 파이프라인을 분포 일치 문제로 보는 새로운 관점은, 데이터와 알고리즘을 더 잘 결합하여 모델 성능을 향상시킵니다. 이는 마치 좋은 재료를 가지고 맛있는 음식을 만드는 것과 같습니다. 2. **실패 중심 후 훈련**: 실패 지역에 대한 데이터 생성 및 합성은 모델이 더 잘 작동하도록 가이드합니다. 이것은 학생이 자신의 약점인 문제를 집중적으로 해결하여 성능을 향상시키는 것과 유사합니다. 3. **데이터 정제 엔진**: 공개 데이터와 인공 생성 데이터를 결합한 고유한 데이터 셋은 모델의 추론 능력을 크게 향상시킵니다. 이는 다양한 재료를 혼합하여 새로운 요리를 만드는 것과 같습니다.

📄 논문 발췌 (ArXiv Source)

서론

최근 몇 년 동안, OpenAI의 o1 시리즈, QwQ, DeepSeek-R1과 같은 대형 언어 모델(LLMs)은 수학 및 더 넓은 STEM 분야에서 어렵고 추론력이 요구되는 작업에 강한 성능을 보여주었습니다. 이러한 모델들의 추론 능력은 일반적으로 사후 훈련 기술, 예를 들어 감독 학습 조정(SFT)과/또는 강화 학습(RL)을 통한 강력한 기본 모델에서 생겨납니다. 그러나 많은 모델들이 오픈 소스로 공개되었음에도 불구하고, 사후 훈련 파이프라인과 훈련 데이터 정제에 대한 세부사항은 여전히 비공개 상태로 남아 있어 앞으로의 연구를 위한 도전 과제와 기회가 존재합니다.

최근 오픈 소스 커뮤니티는 작은 규모의 모델에서 고급 추론 능력을 키우기 위해 데이터 생성 레시피와 알고리즘 전략을 개발하는 데 많은 노력을 기울였습니다. 이로 인해 Klear-Reasoner, Ring-Lite, MiMo, OpenThoughts, Llama-Nemotron, AceReason-Nemotron 등 여러 주목할만한 연구가 진행되었습니다. 그러나 이러한 경험적 성공에도 불구하고 커뮤니티는 데이터 수집과 사후 훈련 알고리즘을 통해 효과적으로 활용하는 것을 지도하는 통합 프레임워크를 여전히 가지고 있지 않습니다. LLM 커뮤니티에서는 “데이터가 새로운 원유"이며 알고리즘이 원하는 데이터 분포를 효과적으로 포착할 때에만 성공할 수 있다고 널리 인식하고 있습니다. 이는 추론 모델을 훈련시키는 데 있어 다음의 중앙 질문을 유발합니다:

효과성, 효율성, 확장성을 고려하여 추론 모델용 데이터-알고리즘 공통 설계 엔진을 구축하는 데 무엇이 필요할까요?

본 보고서에서는 이 질문에 이론적이고 기술적인 관점에서 접근합니다. SFT-RL 파이프라인을 분포 일치 문제로 정식화하여 먼저 제공합니다. 우리는 첫 번째 단계의 SFT가 사용 가능한 샘플링을 위한 강력한 제안 분포를 구축하고, 두 번째 단계의 사후 훈련(SFT 또는 RL)이 원하는 성질(예: 추론 능력)을 갖는 금고 분포로 모델을 이동시킨다고 가정합니다.

이 형식화에 기반하여 우리는 다음과 같이 추론 모델의 경계를 더욱 확장하려고 합니다. (i) 확장성, 광범위한 커버리지 및 높은 품질의 긴 CoT 데이터셋을 생성하는 엄격한 데이터 정제 파이프라인을 구현하고, (ii) 정제된 데이터를 효과적으로 활용하여 모델의 추론 능력을 개선하도록 최적화된 사후 훈련 파이프라인을 설계합니다.

구체적으로, 우리는 공개 가능 데이터셋에서 추론 데이터를 수집하고 Logics-Parsing으로 분석된 문서로부터 생성된 인공 예제로 확장합니다. 세밀한 난이도에 따른 계층적 샘플링 전략과 함께 광범위한 실험 결과는 우리의 정제된 Logics-STEM-SFT-Dataset이 이미 LLMs에게 강력한 기본 추론 능력을 제공하는 것으로 나타났습니다. 또한, 우리는 금고 분포와의 일치를 개선하기 위해 실패 중심 사후 훈련 패러다임을 채택합니다. 구체적으로 첫 번째 단계 SFT 후에 모델의 실패 지역 주변에서 타겟 지식 검색 및 데이터 합성을 수행하여 두 번째 단계 SFT 또는 RL을 안내합니다. 이는 두 가지 대안 파이프라인, SFT-RL과 SFT-SFT를 생성합니다. 우리는 이러한 두 개의 파이프라인에 대해 체계적으로 우리의 방법론을 테스트하고 우리 접근법이 모델의 추론 능력을 크게 개선하는 것을 보여줍니다.

결과적으로 Logics-STEM, Qwen3에서 미세 조정된 추론 모델을 제시합니다. 이 모델은 여러 주요 추론 벤치마크에서 뛰어난 성능을 보입니다. 8B 규모에서는 1에 표시된 것처럼 Logics-STEM-8B이 Klear-Reasoner-8B, DeepSeek-R1-0528-Distill-8B 및 Qwen3-8B를 능가하며 AIME2024에서 90.42%, AIME2025에서 87.08%, HMMT2025에서 74.79%, BeyondAIME에서 62.5%, GPQA-Diamond에서 73.93%의 점수를 얻었습니다.

요약하자면, 우리의 연구 기여는 다음과 같습니다.

SFT-RL 파이프라인을 분포 일치 문제로 정식화하고 모델 실패 지역 주변에서 타겟 지식 검색 및 데이터 합성을 활용하여 SFT와 RL을 효과적이고 효율적으로 안내하는 실패 중심 사후 훈련 프레임워크를 설계했습니다.
공개 가능 데이터를 효과적으로 사용하고 문서에서 생성된 인공 예제로 확장하는 데이터 정제 엔진을 설계하여 Logics-STEM-SFT-Dataset이라는 고급 및 다양한 데이터셋을 제공합니다. 이는 10M 규모의 가장 큰 오픈 소스 긴 사고 체인 코퍼스 중 하나입니다.
우리의 추론 모델, Logics-STEM은 유사한 크기의 다른 오픈 소스 모델보다 STEM 추론 벤치마크에서 우수한 성능을 보입니다. 우리는 SFT 및 RL 단계에서 Logics-STEM (8B와 32B)과 함께 공개 버전의 Logics-STEM-SFT-Dataset을 공개하여 오픈 소스 커뮤니티 내에서 추가 연구와 개발을 지원합니다.

SFT-RL 파이프라인을 분포 일치로

사전 훈련 후, SFT에 이어 RL은 LLM의 추론 능력을 향상시키는 널리 채택된 레시피가 되었습니다. SFT는 주로 긴 사고 체인(CoT) 추론 추적을 모델에게 익숙하게 하는데 사용되며, RL은 인간의 선호도에 더 가깝게 맞추거나 정책 분포를 더욱 만족스러운 반응을 생성하도록 세분화합니다. 이 관점에서 전체 사후 훈련 절차는 몬테 카를로 샘플링을 통해 추정되는 기대 목표를 최적화하는 것으로 볼 수 있습니다. 학습 데이터는 $`(x, y)`$ 쌍으로 구성되며, 여기서 $`x`$는 프롬프트이고 $`y`$는 타겟 출력(예: 박스로 끝나는 긴 CoT 응답)입니다. $`y^t`$은 $`y`$의 $`t`$번째 토큰을 나타냅니다. 우리는 샘플 단위 감독 손실을 $`\ell_\theta(x, y)`$(예: 음의 로그 가능도(NLL))로 작성하고, 여기서 $`\theta`$는 모델 매개변수입니다. 학습 목표는 다음과 같습니다.

MATH

\begin{equation}
\label{eq:pop_risk}
\text{(기대 위험)} \quad {\mathcal{L}}^*(\theta)=\mathbb{E}_{(x,y)\sim P^*}\big[\ell_\theta(x,y)\big],
\end{equation}

클릭하여 더 보기

여기서 $`P^*(x,y)`$는 (알 수 없는) 이상적인 타겟 분포를 나타냅니다. 그러나 실제로 $`P^*`$은 거의 직접 접근할 수 없으며, 이는 “완벽"하거나 금고 분포로 추론 작업을 해결하는 데 가장 적합한 분포를 의미합니다. 대신 일부 분포 $`P_0(x,y)`$에서 샘플링된 서프로게이트 데이터셋 $`{\mathcal{D}}`$만 관찰할 수 있습니다. 이는 일반적으로 통일된 정제 기준 없이 다양한 출처에서 조립됩니다. 따라서 $`P_0`$은 $`P^*`$과 크게 다를 수 있으며, 접근 가능한 학습 데이터와 이상적인 타겟 분포 사이에 분포 불일치가 발생할 수 있습니다.

타겟 및 학습 분포 간의 불일치

실제로는 $`\mathbb{E}_{(x,y)\sim P_0}\big[\ell_\theta(x,y)\big]`$를 최소화하는 편향된 최적화가 수행됩니다. 여기서 미니 배치 $`\{x_i, y_i\}_{i=1}^B`$는 $`P_0`$에서 샘플링되어 기대값을 경험적인 평균으로 근사합니다. 타겟과 학습 간의 편향을 제거하기 위해 먼저 높은 기대 위험을 일으키는 문제를 살펴봅니다. 우리는 중요도 샘플링 공식을 고려하고 [eq:pop_risk]을 다음과 같이 재구성합니다.

MATH

\begin{equation}
\label{eq:iw_grad_form}
{\mathcal{L}}^*(\theta)
=\mathbb{E}_{(x,y)\sim P^*}\big[\ell_\theta(x,y)\big]=
\mathbb{E}_{(x,y)\sim P_0}\!\left[
\underbrace{\frac{P^*(x,y)}{P_0(x,y)}}_{\text{밀도 비율}} \underbrace{\,\ell_\theta(x,y)
}_{\text{샘플 단위 손실}}\right],
\end{equation}

클릭하여 더 보기

$`{\mathcal{L}}^*`$의 높은 위험은 두 가지 문제로 인해 발생합니다. 1) 높은 밀도 비율 $`\frac{P^*(x,y)}{P_0(x,y)}`$, 즉 학습에서 소홀히 본 지역이지만 타겟 분포에서는 중요한 지역; 2) 높은 샘플 단위 손실 $`\ell_\theta(x,y)`$, 즉 모델이 이러한 샘플에 완전히 실패하는 경우입니다.

참고: 위의 공식에서 우리는 다음과 같은 가정을 합니다. 1) 첫 번째 단계 SFT는 좋은 제안 분포 $`P_0`$에 모델을 맞추려고 시도하고, 2) 두 번째 단계 RL은 높은 밀도 비율이 있는 지역을 탐색하고 분포를 금고 분포로 이동시키려고 시도합니다.

우리는 위의 참고 사항에 대해 조금 더 설명하겠습니다. SFT는 큰 규모의 데이터셋 $`{\mathcal{D}}\sim P_0`$를 통해 모델을 $`P_0`$에 맞추며, 이는 광범위한 커버리지와 일반적인 추론 능력을 부여하는 좋은 제안 분포를 제공합니다. 그러나 이 단계에서 $`P_0`$과 $`P^*`$ 사이의 불일치로 인해 특정 작업에 대해 최적화가 편향되어 성능이 저하됩니다. 두 번째 단계 훈련은 이러한 편향을 암묵적으로 제거합니다. 예를 들어, 전통적인 정책 경사도는 이득 함수 $`A(x,y)`$에 따라 분포에 맞추려고 시도하는 것으로 간주될 수 있습니다.

MATH

\begin{equation}
P^\prime(y \mid x) \propto P_0(y \mid x) e^{\beta A(x,y)},
\end{equation}

클릭하여 더 보기

여기서 $`\beta`$는 정규화 가중치입니다. 적절한 선택을 통해 $`P^\prime`$은 $`P^*`$의 타겟 분포에 대한 좋은 서프로게이트가 될 수 있으며, 두 번째 단계 RL은 분포를 $`P^*`$로 이동시키는 데 사용됩니다. 자세한 논의는 부록 9.3에 제공됩니다.

이해를 바탕으로 두 번째 단계 RL은 적절한 알고리즘 설계로 SFT로 대체될 수 있습니다. 우리는 이론적으로 4에서 그리고 경험적으로 5에서 이를 설명할 것입니다. 이를 통해 강력한 추론 모델을 위한 데이터-알고리즘 공통 설계 엔진을 구축하기 위한 두 가지 핵심 원칙을 제안합니다:

(1) 첫 번째 단계 SFT는 강력한 제안 분포를 생성해야 합니다. 이를 위해 우리는 실제 경험과 기술적 통찰력을 통해 고급 훈련 데이터를 생성하는 데이터 엔진을 실증적으로 설계합니다. 3은 이 데이터 엔진에 대해 자세히 설명합니다.

(2) 두 번째 단계 사후 훈련은 모델을 타겟 분포로 효과적으로 이동시켜야 합니다. 4에서는 모델을 $`P^*`$로 이동시키는 데 더 효율적인 방법을 제안합니다. 구체적으로, 두 번째 단계 사후 훈련에 실패 중심 재샘플링을 도입하여 목표 지향 최적화를 통해 추론 능력을 강화할 수 있습니다.

추론 데이터 엔진

첫 번째 단계 SFT의 중앙 목표는 다양성, 효과성 및 확장성을 갖춘 데이터 엔진을 구축하는 것입니다. 이를 위해 우리는 사고 내용이 풍부하고 다양한 추론 벤치마크에 잘 일반화되는 긴 CoT 데이터셋을 구성하여 $`P_0`$가 광범위한 지원을 가지도록 합니다. 2에서 보는 것처럼 우리의 파이프라인은 선택된 출처로부터 질문을 수집하고 일련의 정제 단계를 통해 고급 추론 질문-응답 쌍을 생성합니다.

데이터 정제 파이프라인

데이터 수집.

이전 연구들은 오픈 소스 데이터의 효과성을 보여주었습니다. 오픈 소스 데이터를 최대한 활용하고 다양성을 확보하기 위해 Huggingface에서 널리 인정되고 자주 인용되는 다양한 출처로부터 질문을 수집합니다(부록 7.1 참조). 품질 위험을 방지하기 위해 초기 합성 하위 집합과 다중 모드 하위 집합은 제외됩니다. 추가적으로, DEGISNER를 사용하여 책 및 웹 페이지에서 인공 데이터셋(DLR-Book 및 DLR-Web)을 통합하여 데이터셋 볼륨을 확장하고 다양성을 높입니다. 모든 PDF 형식 문서는 Logics-Parsing을 통해 평문으로 변환되고 DESIGNER 합성 파이프라인을 거칩니다.

어노테이션.

SFT의 데이터 정제를 통일시키고 후속 RL 단계(검증 가능한 보상)에 대비하기 위해 Qwen3-235B-Instruct-2507은 각 샘플(질문, 메타데이터, 솔루션 및 답변 포함)을 다중 차원에서 어노테이트합니다: (1) 질문의 유효성과 명확성 여부, (2) 질문과 관련된 학문 분야와 도메인, (3) 질문의 교육 수준, (4) 답변 유형, (5) 검증 가능한 답변(있을 경우). 유효성 및 명확성 검사에 통과하지 못한 샘플은 제외됩니다. 어노테이션 세부사항은 부록 7.2에서 제공됩니다.

중복제거.

다양성을 보장하기 위해 정확한 중복과 근사 중복 제거를 포함하여 다양한 수준의 중복제거가 수행됩니다. 먼저 각 질문에 대해 MD5 지문을 생성하고 모든 출처에서 동일한 지문을 가진 중복 샘플을 제거합니다. 또한 24개 뱅크와 밴드폭 10을 사용하여 MinHash 기반의 근사 중복 샘플을 식별 및 제거합니다. 특정 MinHash 버킷을 공유하는 샘플 그룹 내에서 유효한 질문과 검증 가능한 답변이 있는 샘플이 우선적으로 유지됩니다. 결과적으로 약 2/3의 데이터(약 1천만 건)가 유지됩니다.

제염.

평가 벤치마크에 대해 학습 데이터를 제염하여 훈련 데이터에서 잠재적인 오염을 제거합니다. MinHash 기반 및 N-그램 기반 방법을 사용합니다. 학습 샘플이 동일한 MinHash 버킷 또는 13-그램을 공유하는 경우, 평가 샘플과 함께 제거됩니다.

응답 증류.

계산 효율성과 응답 정확성을 균형 있게 유지하기 위해 Qwen3-235B-A22B-Thinking-2507은 각 질문에 대한 추론 응답을 증류합니다. 생성 구성은 부록 7.3에서 상세히 제공됩니다. 이후 훈련 중 체계적인 편향을 억제하기 위해 변형적 반복이 나타나는 응답은 제외합니다. 구체적으로, n-그램 중복 비율이 미리 정의된 임계값을 초과하는 모든 응답은 학습 데이터셋에서 배제됩니다. math-verify 라이브러리를 사용하여 추가적인 답변 검증을 수행할 수 있습니다.

ArXiv 원문 PDF 보기