동적 사고 예산으로 효율적인 대형 언어 모델 추론
초록
본 논문은 고정된 추론 예산 대신 모델 자체의 확신 신호를 활용해 사고 과정을 조기에 종료하거나 연장하는 Certainty‑Guided Reasoning(CGR) 방식을 제안한다. 답안 토큰 확률의 최소값을 ‘확신도’로 정의하고, 사전에 정한 임계값을 초과하면 사고를 멈춘다. AIME2025 문제집에서 정확도는 유지하면서 토큰 사용량을 크게 절감했으며, 새로운 ‘Grade’ 지표를 통해 위험 회피형 성능도 향상시켰다.
상세 분석
CGR은 “생성‑비평가” 구조를 단순화한 형태로, 동일 모델이 사고 토큰을 생성하고 일정 간격(Δ)마다 현재 사고 흐름에 대해 최종 답안을 가상으로 추론한다. 이때 답안 프리픽스 “Final Answer: \boxed{”를 현재 텍스트에 붙이고, 가장 확률이 높은 토큰을 순차적으로 선택해 답안을 만든다. 각 토큰의 확률 p(tᵢ|…) 중 최소값을 c(a*)로 정의하고, 이를 확신도(certainty)라 부른다. 최소값을 사용한 이유는 숫자 답안에서 한 자리라도 불확실하면 전체 답이 틀리기 때문에 보수적인 판단을 보장한다.
알고리즘은 다음과 같다.
- 사고 토큰을 하나씩 생성한다.
- 토큰이 종료 토큰()이거나 예산 B에 도달하면 종료한다.
- t mod Δ = 0 일 때, 현재 텍스트에 프리픽스를 붙이고 답안 후보 a와 c(a)를 계산한다.
- c(a*) ≥ θ(임계값)이면 즉시 사고를 멈추고 답안을 출력한다; 그렇지 않으면 계속 생성한다.
이 방식은 모델 가중치를 전혀 수정하지 않으며, 별도의 비평가 모델을 사용할 수도 있다. 실험에서는 동일 모델을 사용했지만, 작은 모델을 비평가로 두면 비용‑효율성을 더욱 높일 가능성이 있다.
평가에는 AIME2025(30문제, 정수 답)와 세 가지 오픈‑웨이트 모델(DeepSeek‑14B, DeepSeek‑70B, Phi‑4)을 사용했다. 고정 예산(32 000 토큰) 대비 CGR은 토큰 절감량이 수백만 토큰에 달했으며, 정확도는 0.3~1.1% 정도만 감소하거나 오히려 소폭 향상되었다. 특히 θ를 0.99로 높였을 때도 정확도 손실이 미미했으며, 시드 간 변동성이 감소해 안정성이 향상되었다.
새롭게 제안한 Grade 지표는 정답에 +1, 포기(abstention)에 0, 오답에 –p(패널티) 점을 부여한다. CGR은 확신도가 낮은 경우 자동으로 포기하도록 설계돼, p가 0.5 이상일 때 전체 Grade 점수가 고정‑예산 대비 5~12% 상승했다. 이는 위험 회피형 응용(예: 시험 채점, 의료 진단)에서 유용하다.
한계점으로는 (1) 최소 확신도 집계가 지나치게 보수적일 수 있어, 일부 높은 확률의 토큰을 무시하고 조기 종료를 놓칠 가능성, (2) 탐색 간격 Δ와 임계값 θ의 하이퍼파라미터 튜닝이 도메인에 따라 달라질 수 있음, (3) 현재는 정수형 짧은 답에 최적화돼 있어 복잡한 텍스트 생성에는 추가 연구가 필요하다.
전반적으로 CGR은 “얼마나 생각할까?”를 모델 자체가 판단하게 함으로써, 추론 비용과 정확도 사이의 트레이드오프를 동적으로 조정한다는 점에서 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기