다양한 사고 사슬 패턴 학습으로 기반 모델의 추론 잠재력 확장

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 수학 추론 모델의 성능을 제한하는 ‘추론 잠재력’ 개념을 정량화하고, 고가치 사고 사슬 패턴을 추출·정제한 코어 세트를 기반으로 데이터 선택 알고리즘을 설계한다. 10 B 토큰 규모의 고품질 CoT 데이터(CoTP)만으로 85 B 파라미터 MoE 모델을 AIME 2024·2025에서 9.58 % 향상시키고, RL 단계의 상한을 7.81 % 끌어올렸다.

상세 분석

이 연구는 먼저 “추론 잠재력(Reasoning Potential)”을 모델이 질문에 대해 올바른 답을 처음 시도할 확률 Φ(M,q) 로 정의하고, 이는 독립적인 시도 횟수 K의 기하분포 평균의 역수와 동등함을 수학적으로 증명한다(Φ = 1/E

다양한 사고 사슬 패턴 학습으로 기반 모델의 추론 잠재력 확장

초록

상세 분석

댓글 및 학술 토론

의견 남기기