불확실성의 환상: 모호함 속 LLM 불확실성 정량화의 한계

불확실성의 환상: 모호함 속 LLM 불확실성 정량화의 한계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 불확실성 정량화(UQ) 방법이 답변이 다중 정답을 가질 수 있는 모호한 상황에서 거의 무작위 수준으로 성능이 떨어짐을 보인다. 이를 입증하기 위해 실제 공존 통계에 기반한 정답 분포를 제공하는 두 개의 새로운 QA 데이터셋 MAQA와 AmbigQA를 구축하고, 일관성 기반, 내부 표현 기반, 앙상블 기반 등 기존 UQ 패러다임을 이론적으로 분석한다. 결과는 알레아토릭(내재적) 불확실성이 존재할 때 현재의 UQ 지표가 에피스테믹(모델) 불확실성을 올바르게 반영하지 못한다는 것을 보여준다.

상세 분석

논문은 먼저 불확실성을 총 불확실성(TU) = 알레아토릭 불확실성(AU) + 에피스테믹 불확실성(EU) 로 정의하고, AU는 정답 분포 p의 엔트로피, EU는 p와 모델이 예측한 분포 p 사이의 KL 발산으로 표현한다. 기존 UQ 방법은 주로 예측 분포의 엔트로피(일관성 기반) 혹은 모델 파라미터와 예측 변수 사이의 상호정보량(앙상블 기반)을 사용한다. 저자는 AU가 0, 즉 정답이 단일값일 때는 p가 확률 단순체의 꼭짓점에 위치하므로, 높은 엔트로피는 반드시 낮은 최대 확률을 의미하고, 이는 곧 높은 EU(=‑log p(y))와 직접 연결됨을 정리 3.1‑3.2를 통해 증명한다. 따라서 무모호 상황에서는 엔트로피와 MI가 에피스테믹 불확실성의 좋은 대리변수가 된다.

하지만 AU가 양수인 경우, 즉 정답이 여러 개 존재하고 각 답변에 실제 발생 빈도가 있는 경우 p*는 단순히 한 꼭짓점에 머물지 않는다. 이때 예측 엔트로피가 높아도 그것이 AU에 기인한 것인지 모델의 불확실성에 기인한 것인지 구분이 불가능해진다. 정리 3.1·3.2는 AU=0 전제 하에만 성립하므로, AU>0 상황에서는 엔트로피와 MI가 EU와의 일관된 상관관계를 잃는다. 저자는 이를 “불확실성의 환상”이라 부으며, 현재의 UQ 지표가 실제 에피스테믹 불확실성을 과대·과소 평가하게 만든다.

실험에서는 MAQA와 AmbigQA라는 두 데이터셋을 구축했다. MAQA는 과학·기술 분야에서 다중 정답이 존재하는 질문을, AmbigQA는 일반 상식·문화 영역에서 다중 정답을 포함한다. 두 데이터셋 모두 웹 코퍼스에서 답변의 동시 발생 빈도를 수집해 p*를 추정했으며, 정답 클래스는 의미적 동등성에 따라 클러스터링했다. 다양한 LLM(예: GPT‑3.5, LLaMA‑2)과 최신 UQ 기법(일관성 기반 온도 스케일링, MC‑Dropout, 베이지안 앙상블, 내부 레이어 변동성 측정)을 적용한 결과, AU가 없는 기존 벤치마크에서는 AUROC이 0.85 이상이던 것이, 모호 데이터에서는 0.55 수준으로 급락했다. 특히 엔트로피 기반 방법은 무작위 추측과 거의 구분이 되지 않았으며, 앙상블의 MI 역시 높은 변동성을 보였다.

이론적 분석과 실험 결과를 종합하면, 현재 LLM용 UQ 방법은 “정답이 하나뿐인” 이상적인 상황에 최적화돼 있다는 결론에 도달한다. 실제 서비스에서는 질문 자체가 다중 정답을 가질 가능성이 높으며, 따라서 모델이 제공하는 불확실성 추정치를 그대로 신뢰하는 것은 위험하다. 저자는 앞으로의 연구 방향으로 (1) 알레아토릭 불확실성을 명시적으로 모델링하는 방법, (2) 정답 분포 p*를 학습 목표에 포함하는 다중 정답 학습, (3) 인간·시스템 피드백을 통한 불확실성 보정 메커니즘을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기