LLM 환각 탐지를 위한 불확실성 정량화와 가변 앙상블 프레임워크
초록
본 논문은 대형 언어 모델(LLM)의 환각을 실시간으로 탐지하기 위해 블랙‑박스, 화이트‑박스, LLM‑as‑Judge 방식의 불확실성 정량화(UQ) 기법을 표준화된 0‑1 신뢰 점수로 변환하고, 이를 자유롭게 조합할 수 있는 가변 앙상블 방법을 제안한다. 오픈소스 툴킷 UQLM을 통해 손쉽게 적용 가능하며, 다양한 QA 벤치마크에서 개별 스코어보다 앙상블이 일관되게 우수한 성능을 보였다.
상세 분석
이 연구는 LLM 환각 탐지를 ‘폐쇄형(Closed‑Book)’ 설정으로 정의한다. 즉, 외부 지식베이스나 정답 레퍼런스 없이, 생성 시점에만 이용 가능한 모델 내부 신호를 활용한다는 점에서 기존의 정답 비교 기반 방법과 근본적으로 차별된다. 논문은 세 가지 UQ 패러다임을 체계적으로 정리한다. 첫째, 블랙‑박스 UQ는 동일 프롬프트에 대해 온도(temperature)를 높여 다수의 후보 응답을 샘플링하고, 원본 응답과의 의미 일관성을 측정한다. 여기서는 Exact Match Rate(EMR), Non‑Contradiction Probability(NCP), BERTScore‑F1(BSC), Normalized Cosine Similarity(NCS) 등 4가지 스코어를 구현했으며, 특히 NCP는 NLI 모델을 이용해 ‘모순’ 확률을 역전시켜 신뢰도를 산출한다는 점이 흥미롭다. 둘째, 화이트‑박스 UQ는 토큰 수준 확률 정보를 직접 활용한다. 평균 음의 로그 확률, 퍼플렉시티, 토큰 엔트로피, 기하 평균 확률 등 기존 연구에서 제안된 여러 지표를 0‑1 구간으로 정규화해 사용한다. 셋째, LLM‑as‑Judge는 동일 혹은 별도 LLM을 ‘판사’로 두고 질문‑답변 쌍에 대해 사실성 점수를 직접 물어보는 방식이다. 이때 ‘정확’, ‘불확실’, ‘오류’와 같은 라벨을 1, 0.5, 0으로 매핑해 신뢰 점수를 얻는다.
핵심 기여는 이질적인 스코어들을 가중 평균 형태의 가변 앙상블으로 결합한다는 점이다. 사용자는 별도의 검증 데이터(예: 등급이 매겨진 LLM 응답 집합)를 제공해 각 스코어의 가중치를 최적화할 수 있다. 앙상블은 선형 결합 외에도 새로운 스코어를 손쉽게 추가할 수 있는 확장성을 갖춘다. 실험에서는 4가지 LLM(GPT‑4.5, Claude‑3, LLaMA‑2, Mistral‑7B)과 5개 QA 벤치마크(MMLU, TruthfulQA, HotpotQA 등)를 활용해 1,200여 개의 응답에 대해 평가했다. 결과는 대부분의 데이터셋에서 개별 스코어보다 앙상블이 AUROC·AUPR·F1 점수에서 우수했으며, 특히 블랙‑박스 NCP와 화이트‑박스 엔트로피 스코어를 결합한 경우가 최고 성능을 기록했다. 또한 후보 응답 수를 늘릴수록 성능 향상이 점점 감소하는 ‘수확 체감’ 현상을 관찰해, 실무에서는 5~7개의 샘플이 비용‑효율적인 선택임을 제시한다.
한편, 개별 스코어의 순위는 데이터셋에 따라 크게 변동한다. 예를 들어, 사실성 중심의 TruthfulQA에서는 LLM‑as‑Judge가 강력했지만, 복합적 추론이 요구되는 HotpotQA에서는 블랙‑박스 NLI 기반 스코어가 더 좋은 결과를 보였다. 이는 환각 탐지 모델이 ‘도메인 맞춤형’으로 튜닝될 필요성을 강조한다. 마지막으로, 논문은 UQLM 파이썬 패키지를 공개함으로써 연구 재현성과 산업 적용을 동시에 촉진한다는 점에서 실용적 가치가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기