짧게 생각하라 효율적으로 추론하라

짧게 생각하라 효율적으로 추론하라
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RLVR 기반 추론 모델은 과도한 길이의 체인‑오브‑생각(Chain‑of‑Thought)으로 비효율성을 보인다. 기존 길이 벌점은 (1) 정답이 아닌 샘플이 기준을 낮춰 올바른 답을 과도하게 벌하고, (2) 문제 난이도에 따라 고정된 벌점이 맞지 않아 어려운 문제에서는 충분한 추론을 억제하고 쉬운 문제에서는 중복을 제거하지 못한다. 저자들은 이를 해결하기 위해 ‘동적 분리 조건부 이점(DDCA)’을 제안한다. DDCA는 정답 군 내부에서만 길이 이점을 계산해 기준 희석을 없애고, 그룹 통과율을 난이도 지표로 삼아 벌점 강도를 동적으로 조절한다. 실험 결과 GSM8K 등 쉬운 벤치마크에서는 토큰 사용량을 약 60% 줄이고, AIME 등 어려운 벤치마크에서는 20% 이상 감소시키면서 정확도는 유지하거나 소폭 향상시켰다.

상세 분석

본 논문은 대규모 추론 모델(LRM)이 강화학습(RLVR) 과정에서 “과잉 사고(overthinking)” 현상을 보이며, 불필요하게 긴 체인‑오브‑생각을 생성한다는 문제점을 지적한다. 기존의 길이 벌점 방식은 그룹 상대적 정책 최적화(GRPO)에서 전체 샘플의 평균 보상을 기준으로 삼아, 정답이 아닌 샘플이 0 보상을 제공함으로써 기준값이 인위적으로 낮아지는 ‘길이 기준 희석(Dilution of Length Baseline)’ 현상을 초래한다. 이로 인해 정답이라도 평균보다 다소 긴 추론은 과도하게 벌점받아 학습이 방해된다. 또한 고정된 길이 벌점 계수 γ는 문제 난이도에 따라 최적의 값이 달라야 함에도 불구하고, 난이도가 높은 문제에서는 충분한 추론을 억제하고, 난이도가 낮은 문제에서는 중복을 충분히 억제하지 못하는 ‘난이도‑벌점 불일치(Difficulty‑Penalty Mismatch)’를 야기한다. 저자들은 이러한 두 구조적 결함을 해결하기 위해 DDCA를 설계하였다. 첫 번째로, 정답 군(C) 내부에서만 길이 평균과 표준편차를 계산하고, 각 정답 샘플의 길이를 Z‑score로 정규화한 뒤 시그모이드 함수를 적용해 0~1 사이의 bounded reward r_len을 만든다. 이는 길이 기준을 정답 군에 한정시켜 희석을 제거하고, 극단값의 영향을 완화한다. 두 번째로, 그룹 통과율 ρ = n/G(정답 샘플 비율)를 난이도 지표로 사용해 길이 이점 A_len에 동적으로 가중치를 부여한다. ρ가 작을수록(난이도 높음) A_len이 억제되고, ρ가 1에 가까울수록(난이도 낮음) 길이 벌점이 강화된다. 전체 이점은 정확도 이점 A_acc와 길이 이점 A_len을 선형 결합(A = A_acc – β·A_len)하는 형태로 정의되며, 두 이점 모두 Leave‑One‑Out(RLOO) 추정기로 분산을 감소시킨다. 실험에서는 DeepSeek‑R1‑Distill 및 DeepScaleR 두 모델에 DDCA를 적용해 GSM8K, MATH500, AMC23, AIME25 네 가지 벤치마크에서 토큰 사용량을 크게 절감하면서도 정확도는 유지하거나 소폭 상승한다. 특히 쉬운 데이터셋에서는 토큰을 60% 이상 감소시켰고, 어려운 AIME에서는 20% 이상 감소시켰다. 이는 DDCA가 효율성과 정확도 사이의 트레이드오프를 효과적으로 조정함을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기