맞춤형 커리큘럼 강화학습으로 효율적인 추론 구현

맞춤형 커리큘럼 강화학습으로 효율적인 추론 구현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TACLer는 모델의 현재 실력에 따라 데이터 난이도를 단계적으로 높이는 맞춤형 커리큘럼 강화학습 프레임워크와, Thinking/NoThinking 두 가지 추론 모드를 자유롭게 전환할 수 있는 하이브리드 추론 방식을 결합한다. 이를 통해 학습 비용을 50% 이상 절감하고, 추론 시 토큰 사용량을 42% 줄이면서도 기본 모델 대비 9% 이상의 정확도 향상을 달성한다.

상세 분석

본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 문제를 해결할 때 흔히 발생하는 ‘오버싱킹’ 현상을 최소화하고, 학습·추론 효율성을 동시에 높이는 새로운 방법론을 제시한다. 핵심 아이디어는 두 축으로 구성된다. 첫 번째는 ‘맞춤형 커리큘럼 학습’이다. 기존 커리큘럼 학습은 문제 난이도를 사전에 정의된 기준(예: 입력 길이)으로만 구분했지만, TACLer는 현재 모델이 각 문제를 해결할 수 있는지를 실제 추론 결과(정답 여부, 전체 사고 과정 길이)로 평가한다. 이를 통해 문제를 세 그룹(정답 획득, 사고 과정은 충분히 생성했지만 오답, 길이 초과)으로 분류하고, 학습 초기에 과도히 어려운 샘플을 배제함으로써 트렁케이션을 방지한다. 이러한 과정을 두 번 반복한 뒤, 마지막 단계에서 전체 데이터를 재학습시켜 이전 단계에서 습득한 지식을 통합한다. 두 번째 축은 ‘Thinking/NoThinking 하이브리드 추론 모드’이다. Thinking 모드는 태그 안에 상세한 사고 과정을 생성하도록 유도해 자기 검증과 백트래킹을 가능하게 한다. 반면 NoThinking 모드는 사고 과정 없이 최종 답만을 출력해 토큰 사용량을 크게 줄인다. 두 모드를 동시에 학습함으로써 모델은 사고 과정을 압축해 짧은 답변에도 높은 정확도를 유지하도록 압축 효과(compression effect)를 학습한다. 학습 알고리즘으로는 Group Relative Policy Optimization(GRPO)을 채택했으며, KL 손실을 제거하고 클리핑 상한을 확대해 탐색성을 강화하였다. 보상은 정답 여부에 기반한 이진 보상으로 단순화했지만, 평균·표준편차 정규화를 통해 상대적 우수성을 반영한다. 실험에서는 1.5B 파라미터 DeepSeek‑R1‑Distill‑Qwen 모델을 백본으로 사용하고, DeepScaleR‑Dataset(≈40k 수학 문제)으로 학습하였다. 평가 베치는 MA​TH500, AMC, AIME 2024, AIME 2025 네 개의 수학 벤치마크이며, 기존 장기 CoT 모델(STILL‑3, DeepScaleR, FastCuRL)과 효율성 중심 모델(OverThink, DAST, O1‑Pruner, AdaptThink 등)과 비교하였다. 결과는 두드러진데, TACLer는 Thinking 모드에서 평균 정확도 88.4%로 가장 높았으며, NoThinking 모드에서도 88.2%로 기존 최고 모델을 9.5%p 상회한다. 토큰 사용량도 Thinking 모드에서는 평균 3010 ~ 6868 토큰, NoThinking 모드에서는 2128 ~ 6056 토큰으로 각각 42%·49% 정도 감소했다. 이러한 성과는 맞춤형 커리큘럼이 학습 효율을 크게 높였으며, 하이브리드 추론이 오버싱킹을 억제하고 압축된 사고를 가능하게 했음을 입증한다. 한계점으로는 보상 설계가 단순 이진형이라 복합적인 사고 과정의 질을 정량화하기 어렵고, 1.5B 규모 모델에 국한된 실험이라 대규모 모델에 대한 확장 가능성은 추가 검증이 필요하다. 또한, 커리큘럼 단계 수와 샘플 재배치 비율이 하이퍼파라미터에 크게 의존한다는 점도 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기