추론 과정의 동적 불안정 진단

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLM이 추론 중에 토큰 확률 분포가 급격히 변하고 불확실성이 상승하는 순간을 “불안정 신호”로 정의하고, 이 신호의 최대값과 발생 시점을 이용해 정답 여부를 예측한다. GSM8K와 HotpotQA에서 높은 AUC를 기록했으며, 불안정이 일찍 발생하면 회복 가능성이, 늦게 발생하면 실패 가능성이 높아지는 “교정형”·“파괴형” 구분을 제시한다.

상세 분석

본 논문은 대형 언어 모델(LLM)의 추론 오류를 최종 정답만으로 평가하는 기존 접근법의 한계를 지적하고, 생성 과정 자체를 동적 시스템으로 바라본다. 모델이 매 단계 출력하는 토큰 확률 분포는 내부 상태의 변화를 가장 직접적으로 드러내는 관측값이며, 이를 통해 “동적 불안정”을 탐지할 수 있다고 가정한다. 구체적으로 저자들은 (1) 연속 단계 간의 분포 변화량을 Jensen‑Shannon Divergence(JSD)로 측정하고, (2) 각 단계의 엔트로피를 불확실성 지표로 활용한다. 두 값을 단순 가중합 Iₜ = Dₜ + λHₜ(λ=1)으로 정의해 “불안정 신호”를 만든 뒤, 전체 생성 트레이스에서 그 최대값 S = maxₜ Iₜ를 “불안정 강도”로 요약한다.

실험에서는 GSM8K와 HotpotQA 두 베enchmark에 대해 다양한 모델 크기(0.5B‑8B)와 디코딩 방식(Deterministic, Sampling)에서 S가 높은 트레이스일수록 정답률이 낮아짐을 확인했다. AUC는 0.66‑0.74 수준으로, 단일 트레이스만으로도 오류를 통계적으로 예측할 수 있음을 보여준다. 중요한 추가 발견은 “불안정 강도만으로는 충분하지 않다”는 점이다. 동일한 S 값을 갖더라도 불안정이 발생한 시점 ρ(전체 토큰 길이 대비 비율)에 따라 결과가 달라진다. 초기 단계에서 급격히 변동하더라도 이후 토큰이 충분히 “안정화”되면 최종 답이 올바른 경우가 많아 이를 “교정형 불안정(corrective instability)”이라 명명한다. 반대로 후반부에 동일한 강도의 불안정이 나타나면 회복 여지가 적어 오류가 발생하기 쉬우며, 이를 “파괴형 불안정(destructive instability)”이라 구분한다.

방법론적 강점은 전적으로 API 수준의 로그 확률만을 사용한다는 점이다. 모델 내부 상태나 추가 파라미터, 다중 샘플링이 필요 없으며, O(T·k) 복잡도로 스트리밍 처리도 가능하다. 저자들은 λ를 고정하고, λ=0(순수 JSD)와 λ=1(통합) 비교 실험을 통해 두 요소가 상보적임을 입증한다. 또한, 트레이스 길이에 따른 스파이크 발생 가능성을 보정하기 위해 고정 윈도우 내 최대값 S₅₀을 제시, 길이 편향을 최소화한다.

이 연구는 기존의 “confidence score”나 “self‑consistency”와는 다른 차원의 진단 도구를 제공한다. 불안정 신호는 토큰 수준에서의 급격한 확률 재배치를 포착함으로써, 모델이 내부적으로 “추론 경로를 잃어버리는” 순간을 실시간으로 감지한다. 따라서 추론 과정 모니터링, 오류 사전 탐지, 혹은 인간‑기계 협업 시 위험 경고 시스템 등에 활용 가능성이 크다. 다만, 현재는 진단에만 초점을 맞추고 있어 실제로 불안정을 억제하거나 교정하는 방법론은 제시되지 않는다. 향후 연구에서는 불안정 신호를 기반으로 동적 디코딩 전략을 조정하거나, 교정형 불안정을 활용한 자동 self‑correction 메커니즘을 설계하는 방향이 기대된다.

추론 과정의 동적 불안정 진단

초록

상세 분석

댓글 및 학술 토론

의견 남기기