엔트로피 동역학으로 보는 LLM 추론 진단

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 토큰 수준 엔트로피 변화를 시간축에 따라 분석하여, 올바른 추론과 오류 추론을 구분하는 특징적인 불안정 패턴을 발견한다. 이를 정량화한 Entropy Dynamics Instability Score(EDIS)를 제안하고, 추론 단계에서의 샘플 선택 및 강화학습 시 샘플 큐레이션에 적용해 정확도를 크게 향상시켰다.

상세 분석

논문은 기존 연구가 엔트로피를 정적 평균값이나 최종 토큰에만 적용해 왔던 한계를 지적하고, “엔트로피 궤적”이라는 개념을 도입한다. 토큰 t에서의 엔트로피 Hₜ를 시계열 H = (H₁,…,H_T) 로 표현함으로써, 모델이 생성 과정에서 자신감이 어떻게 변하는지를 직접 관찰한다. 실험을 통해 두 가지 전형적인 불안정 패턴을 규명한다. 첫 번째는 버스트 스파이크로, 연속적인 w 토큰 구간에서 엔트로피가 지속적으로 상승하는 현상이다. 이는 모델이 점점 더 혼란스러워지는 과정을 의미한다. 두 번째는 피크‑밸리 스파이크(리바운드) 로, 엔트로피가 일시적으로 최소값에 도달한 뒤 급격히 상승하는 V‑형 궤적을 보인다. 이는 일시적인 자신감이 깨지고 다시 불확실성이 커지는 상황을 나타낸다.

이러한 패턴은 모델 종류(Qwen2.5‑Math‑1.5B, Qwen3‑4B‑Instruct 등), 온도 설정(0.2~1.0), 학습 단계에 관계없이 일관되게 나타났으며, 올바른 추론에서는 엔트로피가 낮고 평탄한 곡선을, 오류 추론에서는 위 패턴이 1.7‑3.6배 더 많이 발생한다.

EDIS는 두 가지 스파이크 카운트(S_burst, S_rebound)를 평균화한 스파이크 점수와 전체 엔트로피 분산을 곱해 정의한다:
EDIS(H) = ½(S_burst + S_rebound) × (1 + Var(H)).
스파이크가 많고 변동성이 클수록 점수가 높아지며, 이는 “불안정한 추론”을 정량적으로 나타낸다.

추론 단계에서는 다수의 후보 응답을 생성한 뒤 EDIS가 낮은 응답을 선택하는 베스트‑오브‑N 전략을 적용한다. 네 개의 수학 벤치마크(GSM8K, MATH, AMC23, AIME24)와 세 모델에 대해 실험한 결과, 평균 정확도가 29.9%에서 54.5%로 82% 상대 향상을 보였으며, 기존의 평균 엔트로피, 셀프‑서티피케이션, 시퀀스 엔트로피와 비교해 각각 60.6%, 51.7%, 50.9%의 절대 정확도를 기록했다.

또한 강화학습(GRPO) 환경에서 EDIS를 활용한 샘플 큐레이션을 시도했다. “시퀀스 필터링”은 가장 안정적인 정답과 가장 불안정한 오답을 선택해 학습에 사용하고, “시퀀스 가중치”는 EDIS를 로그 변환 후 z‑스코어화해 정답은 낮은 점수, 오답은 높은 점수에 가중치를 부여한다. 초기 실험 결과, 이러한 큐레이션이 정책 업데이트 시 보상 신호의 품질을 향상시켜 최종 성능에 긍정적인 영향을 미침을 확인했다.

전체적으로 논문은 엔트로피의 시간적 동역학이 LLM 추론 품질을 진단하는 강력한 신호임을 실증하고, 간단하면서도 해석 가능한 지표(EDIS)를 제안함으로써 추론 단계와 학습 단계 모두에 적용 가능한 새로운 패러다임을 제시한다.

엔트로피 동역학으로 보는 LLM 추론 진단

초록

상세 분석

댓글 및 학술 토론

의견 남기기