대규모 언어모델의 지능을 측정하는 정보이론 기반 불확실성 감소 분석

대규모 언어모델의 지능을 측정하는 정보이론 기반 불확실성 감소 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM의 내부 정보처리 방식을 정량화하기 위해 ‘엔트로피 감소 곡선(EDC)’과 ‘불확실성 지수(uₖ)’를 제안한다. 컨텍스트 길이가 늘어날수록 모델의 예측 불확실성이 어떻게 감소하는지를 시각화하고, 이를 단일 지표인 Information Gain Span(IGS)으로 요약한다. Llama 3.3, DeepSeek‑R1, Qwen 2.5 등 세 모델을 세 개의 고전 텍스트에 적용해 규모와 텍스트 복잡도가 프로파일에 미치는 영향을 실증하였다.

상세 분석

이 연구는 LLM의 토큰 예측 분포 전체를 활용한다는 점에서 기존 퍼플렉시티 기반 평가와 차별화된다. 모델이 k개의 토큰을 입력받았을 때 출력하는 전체 확률 벡터 p(Y|X)에서 조건부 엔트로피 hₖ와 평균 분포 엔트로피 Hₖ를 각각 계산한다. hₖ는 “잔여 불확실성”을, Hₖ는 “가능한 출력 다양성”을 의미한다. 두 값을 비율화한 uₖ = hₖ / Hₖ는 0‒1 사이의 정규화된 불확실성 지수이며, k에 대한 함수인 엔트로피 감소 곡선(EDC)은 모델의 인지 프로파일을 시각적으로 드러낸다.

실험에서는 k = 3, 9, 30, 90, 300, 600 토큰을 사용해 1,000개의 슬라이딩 윈도우를 샘플링하였다. Llama 3.3(70.6 B)은 초단기(k=3)에서 가장 높은 uₖ를 보이며, 컨텍스트가 늘어날수록 급격히 감소해 장기(k=600)에서는 거의 0에 수렴한다. 이는 대규모 모델이 풍부한 초기 불확실성을 가지고 시작하지만, 충분한 컨텍스트가 제공되면 거의 완전한 확신으로 전환된다는 의미다. 반면 DeepSeek‑R1(8.19 B)과 Qwen 2.5(7.62 B)는 uₖ 감소가 완만해 텍스트가 복잡할수록(‘Ulysses’, ‘Kant’) 높은 잔여 불확실성을 유지한다.

텍스트 복잡도에 따른 차이도 뚜렷하다. ‘Alice in Wonderland’는 비교적 낮은 어휘 다양성과 구조적 일관성 덕분에 모든 모델이 k≥30에서 급격히 uₖ가 낮아진다. 반면 ‘Ulysses’와 ‘Critique of Judgment’는 어휘와 구문이 복잡해 장기 컨텍스트에서도 높은 uₖ를 유지한다.

또한, 저자들은 uₖ가 거의 0에 수렴하는 현상을 데이터 오염(메모리제이션) 징후로 해석한다. Llama 3.3이 ‘Alice’ 코퍼스에서 장기 uₖ≈0을 보인 것은 해당 텍스트가 사전 학습 데이터에 포함됐을 가능성을 시사한다. 반면 같은 모델이 ‘Kant’에서는 높은 uₖ를 유지해 실제 일반화 능력을 보여준다.

요약 지표인 Information Gain Span(IGS)은 uₖ_small(=u₃)와 uₖ_large(=u₆₀₀)를 이용해 IGS = u₃·(1−u₆₀₀) 로 정의한다. 높은 IGS는 초기 불확실성이 크면서 최종 확신이 낮다는 바람직한 프로파일을 의미한다. 실험 결과, Llama 3.3은 ‘Alice’와 ‘Ulysses’에서 가장 높은 IGS를 기록했으며, 소형 모델은 전반적으로 낮은 IGS를 보였다.

이러한 방법론은 (1) 모델 규모와 텍스트 난이도에 따른 인지 능력 비교, (2) 테스트 셋의 데이터 오염 감지, (3) 모델 선택 및 튜닝에 대한 정량적 근거 제공이라는 세 가지 실용적 가치를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기