LLM 불확실성 추정의 새로운 패러다임: 단일 시퀀스 기반 NLL 측정

LLM 불확실성 추정의 새로운 패러다임: 단일 시퀀스 기반 NLL 측정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존에 다중 시퀀스를 샘플링해 불확실성을 추정하던 방법의 계산 비용 문제를 지적하고, proper scoring rule 이론을 활용해 가장 가능성이 높은 출력 시퀀스의 음의 로그우도(NLL)를 불확실성 측정값으로 정의한다. 이를 greedy decoding으로 근사한 G‑NLL을 제안하며, 다양한 모델·태스크에서 기존 최첨단 방법들을 능가하는 성능을 보인다.

상세 분석

이 연구는 LLM의 불확실성 추정을 두 단계로 구분한다. 첫 번째는 “예측 불확실성” 자체를 어떻게 정의하느냐이며, 두 번째는 이를 실용적으로 계산할 방법을 찾는 것이다. 저자들은 proper scoring rule(적절한 점수 함수) 프레임워크를 기반으로, 기존 연구가 주로 사용해 온 로그 스코어(logarithmic score)가 전체 출력 시퀀스 분포에 대한 기대값을 필요로 함을 재확인한다. 로그 스코어를 적용하면 불확실성은 전체 시퀀스 엔트로피와 KL 발산 형태로 표현되지만, 실제로는 어휘 수가 수십만에 달하고 시퀀스 길이가 길어 모든 가능한 시퀀스에 대해 확률을 계산하는 것이 불가능하다. 따라서 Monte‑Carlo 샘플링이나 의미 클러스터링을 통한 근사 방법이 사용되지만, 이는 여전히 다중 시퀀스 생성 비용을 요구한다.

논문은 여기서 대안을 제시한다. 점수 함수를 zero‑one score로 교체하면, 기대값이 “가장 가능성이 높은 시퀀스” 하나에만 집중된다. 수학적으로는
(S_{0-1}(p, y’) = \mathbf{1}{y’ = \arg\max_y p(y|x)},(1 - p(y’|x)))
이며, 이를 기대하면 불확실성은 단순히 가장 가능성 높은 시퀀스의 확률 (p(y^|x)) 로 표현된다. 즉, 불확실성 = (1 - p(y^|x)) 가 된다. 이 값은 “Maximum Sequence Probability”(MSP)와 동일하지만, 기존 연구에서는 이 정의가 이론적 근거 없이 경험적 베이스라인에 불과했다.

핵심 기여는 두 가지다. 첫째, MSP를 proper scoring rule 관점에서 엄밀히 유도함으로써 단일 시퀀스 기반 불확실성 측정이 이론적으로 정당함을 증명한다. 둘째, 실제 모델에서는 가장 가능성이 높은 시퀀스를 정확히 찾는 것이 NP‑hard하므로, greedy decoding(그리디 탐욕적 디코딩)으로 근사한 G‑NLL을 제안한다. greedy decoding은 실제 서비스 환경에서 가장 흔히 쓰이는 디코딩 전략이며, 한 번의 전방 패스만으로 시퀀스와 그 로그우도를 얻을 수 있다. 따라서 G‑NLL은 “single‑pass, zero‑sampling” 방식으로 계산 비용을 크게 절감한다.

실험에서는 다양한 LLM(7B~70B 파라미터), 여러 데이터셋(질문‑응답, 요약, 번역) 및 평가 지표(ROC‑AUC, ECE, Brier score)를 사용해 G‑NLL이 기존의 Predictive Entropy, Semantic Entropy, MC‑Dropout, Ensemble 등과 비교된다. 결과는 G‑NLL이 대부분의 설정에서 동일하거나 더 높은 불확실성 정밀도를 보이며, 특히 길이 정규화가 필요 없는 점이 큰 장점으로 작용한다. 또한, 샘플링 기반 방법이 10배 이상 느린 반면, G‑NLL은 디코딩 시간과 거의 동일한 속도를 유지한다.

비판적 시각에서 보면, greedy decoding이 최적의 MAP 시퀀스를 찾지 못할 경우 G‑NLL이 실제 MSP보다 낮은 확률을 반환할 수 있다. 저자들은 beam search와 같은 더 정교한 근사법을 추가 실험했으나, 계산 비용이 급증한다는 점을 강조한다. 또한, zero‑one score 자체가 “가장 가능성 높은 시퀀스가 정답인지”를 전제로 하기 때문에, 모델이 시스템적 편향을 가질 경우 불확실성 추정이 과소평가될 위험이 있다. 그럼에도 불구하고, 이 논문은 “불확실성 추정에 반드시 다중 시퀀스가 필요하지 않다”는 강력한 메시지를 제시하며, 실무 적용 가능성을 크게 높였다.

요약하면, 논문은 proper scoring rule 이론을 LLM 불확실성에 적용해 MSP를 정당화하고, greedy‑based G‑NLL을 통해 계산 효율성을 극대화한다. 이 접근법은 기존 복잡한 샘플링·엔셈블 기반 방법을 대체할 수 있는 실용적인 대안으로, 향후 LLM 서비스에서 신뢰성 보장을 위한 핵심 도구가 될 가능성이 높다.


댓글 및 학술 토론

Loading comments...

의견 남기기