생각 종료 후 엔트로피: 추론 모델 조기 종료 기법

생각 종료 후 엔트로피: 추론 모델 조기 종료 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 추론 LLM이 정답을 얻은 뒤에도 불필요하게 사고를 이어가는 “오버씽킹” 현상을 발견하고, 토큰 직후의 토큰 엔트로피(EAT)를 이용해 언제 사고를 멈출지 자동으로 판단하는 경량 신호와 알고리즘을 제안한다. EMA 기반 변동성 임계값으로 조기 종료 시점을 정하고, MATH‑500·AIME‑2025 등에서 토큰 사용량을 12‑22 % 절감하면서 정확도는 유지한다. 또한 로그잇에 접근할 수 없는 블랙박스 모델에서도 작은 프록시 모델을 이용해 EAT를 계산할 수 있음을 실증한다.

상세 분석

본 연구는 먼저 “오버씽킹”이라는 현상을 정량적으로 입증한다. 저자들은 동일 질문에 대해 128개의 무작위 롤아웃을 수행하고 Pass@1을 시간(토큰) 축에 따라 추적했으며, 많은 경우 정답이 초반에 100 % 도달함에도 불구하고 모델은 추가적인 사고 토큰을 계속 생성한다는 것을 확인했다. 이는 토큰당 연산 비용이 높은 LLM에게 비효율을 초래한다.

이를 해결하기 위해 제안된 핵심 신호는 **Entropy After (EAT)**이다. 모델에 명시적인 종료 토큰 를 삽입하고, 그 직후 한 토큰에 대한 확률 분포의 엔트로피를 측정한다. 수식적으로는
( \text{EAT}_n = H\bigl(f(Q,\langle think\rangle, r_1,\dots,r_n,\langle /think\rangle;\theta)\bigr) )
이며, 여기서 (H)는 엔트로피, (f)는 다음 토큰 예측 분포이다. 이 값은 사고 단계가 진행될수록 감소하고, Pass@1이 포화되는 시점에서 거의 안정화한다. 즉, EAT는 “정보 이득”을 한 토큰 수준에서 근사한 것으로, 복잡한 롤아웃이나 다중 토큰 엔트로피 계산 없이도 충분히 신호를 제공한다.

조기 종료 판단은 EAT 시계열의 분산을 EMA(Exponential Moving Average)로 추정한 뒤, 사전에 정의한 임계값 이하가 되면 종료한다. 구체적인 업데이트 식은
(\hat M_{t} = (1-\alpha)\hat M_{t-1} + \alpha \text{EAT}t)
(\hat V
{t} = (1-\alpha)\hat V_{t-1} + \alpha (\text{EAT}t - \hat M{t})^2)
이며, (\alpha)는 0.2 정도로 설정해 비교적 짧은 윈도우를 만든다. 변동성이 급격히 감소하면 모델이 더 이상 유의미한 불확실성 감소를 경험하지 못한다는 의미이므로, 여기서 사고를 멈추어도 정확도 손실이 거의 없다고 본다.

실험에서는 DeepSeek‑R1‑0528‑Qwen3‑8B를 기본 추론 모델로 사용하고, MATH‑500, AIME‑2025, GPQA‑Diamond 등 네 개 데이터셋에 대해 평가했다. EAT 기반 조기 종료는 평균 토큰 사용량을 12 %~22 % 절감했으며, Pass@1은 기존 고정 토큰 예산 대비 동일하거나 미미하게 향상되었다. 특히 어려운 질문에서는 여전히 충분한 토큰을 할당받아 정확도를 유지한다.

또한 로그잇에 접근할 수 없는 블랙박스 상황을 고려해, 작은 프록시 모델(예: Llama‑1.5B, Claude‑3.7)로 EAT를 추정하는 실험을 수행했다. 프록시 모델이 원본 모델의 다음 토큰 분포를 충분히 근사하면, 조기 종료 판단이 크게 손상되지 않으며 실제 서비스 환경에서도 적용 가능함을 보여준다.

비교 대상인 기존 방법들은 다중 롤아웃 기반의 불확실성 추정, 답변 변화 감지, 혹은 내부 hidden state를 활용한 학습된 분류기 등을 사용한다. 이러한 방법들은 추가 디코딩 비용, 복잡한 파이프라인, 혹은 라벨링된 검증 데이터가 필요하다는 단점을 가진다. 반면 EAT는 학습이 필요 없고, 단일 토큰 엔트로피만으로 충분히 신호를 제공한다는 점에서 경량성과 범용성이 뛰어나다.

한계점으로는 (1) EAT가 매우 낮은 엔트로피 상태에서도 변동성이 여전히 남아 조기 종료 시점을 과도하게 늦출 수 있다는 점, (2) 프록시 모델이 원본과 크게 다른 토큰 분포를 가질 경우 조기 종료 판단이 부정확해질 가능성, (3) 현재는 주로 수학·과학 문제에 초점을 맞추었으며, 자유형 텍스트 생성이나 대화형 시나리오에 대한 일반화는 추가 검증이 필요하다는 점을 들 수 있다. 향후 연구에서는 변동성 임계값을 적응적으로 조정하거나, 다중 토큰 엔트로피와 결합한 하이브리드 신호를 탐색함으로써 더욱 정교한 조기 종료 전략을 설계할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기