홀루시네이션 탐지를 위한 OOD 기법의 기하학적 접근

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 대형 언어 모델(LLM)의 토큰 예측을 다중 클래스 분류 문제로 재해석하고, 기존 OOD(Out‑of‑Distribution) 탐지 기법을 변형하여 훈련 없이 단일 샘플만으로도 hallucination을 효과적으로 감지하는 방법을 제시한다. 특히, penultimate‑layer 특징과 마지막 레이어 가중치·결정 경계 사이의 기하학적 거리·투영을 이용한 NCI와 fDBD 점수를 평균화해 시퀀스 수준의 불확실성 지표로 활용한다. 분석적 평균 특징 추정과 고확률 토큰 서브셋 선택을 통해 대규모 어휘와 다단계 추론에서도 효율성을 확보했으며, Llama‑3.2‑3B, Qwen‑2.5‑7B, Qwen‑3‑32B 등 다양한 모델·스케일에서 기존 베이스라인을 크게 능가하는 AUROC를 기록한다.

상세 분석

**
논문은 LLM의 다음 토큰 예측을 “고차원 선형 분류”로 보는 관점을 취한다. 이때 penultimate‑layer 임베딩 z는 마지막 레이어(언어 헤드)의 가중치 wᵥ와 편향 bᵥ에 의해 각 어휘 v 에 대한 로짓을 생성한다. 기존 OOD 탐지에서는 훈련 데이터의 특징 평균 μ_G 또는 클래스별 가중치와의 거리 등을 이용해 입력이 학습 분포에 속하는지를 판단한다. 하지만 LLM은 어휘 수가 수십만에 달하고, 훈련 데이터 자체가 비공개·거대하여 μ_G를 직접 추정하기 어렵다. 이를 해결하기 위해 저자는 두 가지 기하학적 불확실성 지표를 도입한다.

NCI (Neural Collapse Inspired) – 특징‑가중치 근접도
- 정의: s_NCI(z) = cos( w_{ĉ}, z − μ_G ) / ‖w_{ĉ}‖², 여기서 ĉ 는 현재 가장 높은 로짓을 가진 토큰.
- μ_G를 직접 계산하는 대신, “Decision‑Neutral Closest Point” z* 를 analytically 구한다. 이는 로짓 분산을 최소화하는 점으로, 가중치 행렬 W와 편향 b를 이용해 z* = −(Wᵀ P W)† Wᵀ P b ( P = I − (1/|V|) 11ᵀ ) 로 얻는다. 모델이 zero‑bias인 경우 z* 는 원점이 된다. 이 근사값을 μ_G 대신 사용해도 실제 실험에서 Perplexity 기반 베이스라인보다 높은 AUROC를 달성한다.
fDBD (fast Decision‑Boundary‑based Detector) – 특징‑결정경계 거리
- 정의: D_f(z, c) = inf_{z’∈R_c} ‖z − z’‖₂, 여기서 R_c 는 토큰 c 가 가장 높은 로짓을 갖는 영역.
- 직접 최적화를 수행하면 비용이 크므로, D_f 를 아래와 같이 근사한다.
  ˜D_f(z, c) = | (w_{ĉ} − w_c)ᵀ z + (b_{ĉ} − b_c) | / ‖w_{ĉ} − w_c‖₂.
- 이 식은 O(|V|)가 아니라 O(d_model) 연산으로 계산 가능하며, 특히 높은 확률을 가진 토큰 서브셋(예: top‑k)만 고려하면 더욱 효율적이다.

두 지표 모두 “낮은 점수 = 높은 불확실성 = hallucination 가능성”이라는 해석을 갖는다. 시퀀스 전체에 대해 각 토큰별 점수를 평균하면 S_NCI 혹은 S_fDBD가 얻어지고, 이를 임계값 τ 와 비교해 hallucination 여부를 판단한다.

실험 설계 및 결과

데이터: CSQA(Commonsense QA)와 수학 추론 데이터셋을 사용했으며, Llama‑3.2‑3B‑Instruct, Qwen‑2.5‑7B‑Instruct, Qwen‑3‑32B 등 세 모델에 적용.
베이스라인: Perplexity, 기존 다중 샘플 기반 방법(예: self‑consistency, ensemble), 그리고 최신 OOD 탐지 변형.
평가 지표: AUROC (threshold‑free).
핵심 결과:
- NCI(analytic μ_G)는 CSQA에서 66.07 AUROC를 기록, empirical μ_G(62.79)와 Perplexity(63.23)보다 우수.
- fDBD는 top‑k 토큰 서브셋(예: k=50)만 사용해도 비슷하거나 더 높은 AUROC를 달성하면서 연산량을 10배 이상 절감.
- Greedy와 stochastic(temperature>0) 디코딩 모두에서 안정적인 성능을 보이며, 특히 다단계 추론 시 기존 다중 샘플 방법이 겪는 비용 폭증을 회피한다.

기술적 기여

LLM을 고차원 선형 분류기로 모델링하고, OOD 탐지의 기하학적 지표를 직접 적용할 수 있는 수학적 프레임워크를 제공.
훈련 데이터에 접근할 수 없는 상황에서도 의미 있는 평균 특징을 analytic하게 추정하는 “Decision‑Neutral Closest Point” 방법을 제안.
대규모 어휘와 다단계 추론에 맞게 fDBD를 토큰 서브셋 기반으로 경량화, 실시간 추론에 적합하도록 설계.
단일 샘플, 훈련‑프리 방식으로도 높은 hallucination 탐지 정확도를 달성, 기존 비용‑집중형 방법을 대체할 실용적 경로를 제시.

한계 및 향후 연구

현재는 토큰‑레벨 불확실성을 평균화하는 단순 전략을 사용했으며, 시퀀스‑레벨 구조(예: 트리형 추론)와의 연계는 미탐색.
Decision‑Neutral Point는 가중치와 편향에 강하게 의존하므로, 비선형 헤드(예: MoE)에서는 추가 조정이 필요할 수 있다.
fDBD의 토큰 서브셋 선택 기준을 학습 기반으로 최적화하면 더 높은 효율성을 기대한다.

홀루시네이션 탐지를 위한 OOD 기법의 기하학적 접근

초록

상세 분석

댓글 및 학술 토론

의견 남기기