LLM 불확실성 추정 위한 의미 알파벳 크기 개선

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 이산 의미 엔트로피(DSE) 추정기가 샘플이 적을 때 실제 엔트로피를 과소평가한다는 점을 확인하고, 생태학적 ‘미관측 종’ 추정 아이디어를 차용한 새로운 의미 알파벳 크기 추정기를 제안한다. 제안된 하이브리드 추정기를 이용해 DSE를 표본 커버리지에 맞게 보정하면, 적은 샘플( n=10 )에서도 보다 정확한 의미 엔트로피를 얻을 수 있다. 실험 결과, 두 알파벳 크기 추정기(기존 Good‑Turing 기반과 제안 하이브리드)는 최신 블랙박스 불확실성 추정기들보다 동등하거나 우수한 오류(환각) 탐지 성능을 보이며, 해석 가능성도 유지한다.

상세 분석

이 논문은 대형 언어 모델(LLM)의 불확실성을 정량화하기 위해 ‘의미 엔트로피(semantic entropy, SE)’라는 개념을 사용한다. SE는 모델이 생성할 수 있는 의미적 동등 클래스(semantic equivalence class)를 알파벳의 심볼로 보고, 그 확률 분포의 엔트로피를 측정한다. 기존 연구에서는 실제 확률을 알 수 없을 때, 샘플링된 응답을 기반으로 각 클래스의 빈도를 플러그인 방식으로 추정한 ‘이산 의미 엔트로피(DSE)’를 사용했지만, 이는 표본이 전체 알파벳을 충분히 커버하지 못하는 ‘언더샘플링’ 상황에서 엔트로피를 체계적으로 낮게 추정한다는 것이 이론적으로 알려져 있다.

저자들은 이를 보완하기 위해 두 가지 알파벳 크기 추정기를 검토한다. 첫 번째는 Good‑Turing 추정기를 변형한 식(6)으로, 단일 출현 클래스(f₁)를 이용해 전체 알파벳 크기 |S|를 추정한다. 두 번째는 Lin et al. (2024)의 그래프 라플라시안 기반 연속형 추정기(식 7)이다. 그러나 각각은 극단 상황(예: f₁=0 혹은 모든 샘플이 서로 다른 클래스)에서 비현실적인 값을 반환한다. 이를 해결하기 위해 저자들은 ‘하이브리드’ 추정기(식 9)를 제안한다. 이 추정기는 f₁이 전체 샘플 수와 동일한 경우에만 그래프 기반 값을 사용하고, 그 외에는 Good‑Turing 기반 값을 선택한다. 이렇게 하면 두 추정기의 장점을 결합하면서도 비정상적인 값이 나오지 않는다.

알파벳 크기 추정값을 이용해 Chao‑Shen 방식의 커버리지 보정 엔트로피(식 8)를 확장한 새로운 DSE 보정식(식 10)을 도입한다. 이 보정식은 추정된 알파벳 크기와 표본 커버리지 𝐶̂_GT를 곱해 각 클래스 빈도를 스케일링하고, 미관측 클래스에 대한 보정을 포함한다. 결과적으로 작은 샘플에서도 실제 엔트로피에 근접한 값을 제공한다.

실험은 5개의 최신 인스트럭션‑튜닝 모델(Gemma‑2‑9B, Gemma‑3‑12B, Llama‑3.1‑8B, Mistral‑v0.3‑7B, Phi‑3.5‑3.8B)을 대상으로, n=10 샘플링을 기본 설정으로 사용하였다. 평가 지표는 두 가지다. 첫째는 ‘화이트‑박스’ SE( n=100 샘플)와의 평균제곱오차(MSE)이며, 둘째는 오류 탐지 능력으로 AUR‑OC와 Bradley‑Terry 기반 전체 순위 강도 점수를 사용한다. 표 1과 그림 2‑3에서 확인할 수 있듯이, 하이브리드 보정 DSE는 기존 플러그인 DSE보다 MSE가 현저히 낮으며, 특히 Good‑Turing 기반 알파벳 크기 추정기와 비교했을 때도 비슷하거나 더 좋은 성능을 보인다. 또한, 두 알파벳 크기 추정기(특히 하이브리드)는 최신 KLE, SNNE 등 복잡한 블랙박스 방법과 경쟁하거나 이를 앞선다. 중요한 점은 이들 방법이 모두 직관적인 ‘알파벳 크기’와 ‘표본 커버리지’라는 해석 가능한 변수에 기반한다는 점이다.

이 논문의 주요 기여는 다음과 같다. 1) DSE가 샘플이 적을 때 체계적으로 엔트로피를 낮게 추정한다는 실증적 증거 제시. 2) 생태학적 ‘미관측 종’ 문제를 차용한 새로운 알파벳 크기 추정기와 그 하이브리드 변형 제안. 3) 알파벳 크기와 커버리지를 이용한 엔트로피 보정식 도입으로 작은 샘플에서도 정확한 SE 추정 가능. 4) 다양한 모델·데이터셋에 걸쳐 제안 방법이 최신 블랙박스 UQ 기법과 동등하거나 우수한 오류 탐지 성능을 보이며, 해석 가능성도 유지함을 입증.

전체적으로 이 논문은 LLM 불확실성 정량화에서 ‘표본 커버리지’를 명시적으로 고려하는 것이 얼마나 중요한지를 강조하고, 간단하면서도 이론적으로 타당한 보정 메커니즘을 제공한다. 향후 연구에서는 더 복잡한 의미 클러스터링(예: 다중 엔트레인먼트 기반)이나, 실시간 시스템에 적용 가능한 경량화된 커버리지 추정 방법을 탐색할 여지가 있다.

LLM 불확실성 추정 위한 의미 알파벳 크기 개선

초록

상세 분석

댓글 및 학술 토론

의견 남기기