시맨틱 환상 RAG 시스템 임베딩 기반 환각 탐지 한계
읽는 시간: 2 분
...
📝 원문 정보
- Title: The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems
- ArXiv ID: 2512.15068
- 발행일: 2025-12-17
- 저자: Debu Sinha
📝 초록 (Abstract)
검색 기반 생성(RAG) 시스템은 검색된 증거에 근거함에도 불구하고 여전히 환각 현상에 취약하다. 기존 탐지 방법은 임베딩 유사도와 자연어 추론(NLI)을 활용하지만, 안전이 중요한 환경에서 그 신뢰성은 입증되지 않았다. 우리는 RAG 환각 탐지에 컨포멀 예측을 적용해 휴리스틱 점수를 유한 표본 커버리지 보장(1‑α)을 갖는 결정 집합으로 변환한다. 약 600개의 캘리브레이션 샘플을 이용해 근본적인 이분법을 확인했다. 합성 환각(Natural Questions)에서는 임베딩 기반 방법이 95% 커버리지를 0% 위양성률(FPR)로 달성했지만, RLHF 정렬 모델의 실제 환각(HaluEval)에서는 동일한 방법이 목표 커버리지를 맞추기 위해 거의 모든 유효 출력을 거부해 100% FPR을 기록했다. 우리는 이 실패를 분포 꼬리 관점에서 분석했으며, NLI 모델은 AUC 0.81이라는 허용 수준을 보이지만 가장 어려운 환각은 의미적으로 충실한 응답과 구별이 불가능해 컨포멀 임계값이 거의 모든 정답을 배제한다는 결론에 도달했다. 반면 GPT‑4를 판정자로 사용했을 때는 동일 데이터에서 7% FPR(95% CI:💡 논문 핵심 해설 (Deep Analysis)

실험 설계는 두 가지 데이터셋을 중심으로 이루어진다. 첫 번째는 Natural Questions(NQ)에서 인위적으로 만든 합성 환각이며, 두 번째는 RLHF(인간 피드백 강화 학습)로 정렬된 모델이 생성한 실제 환각을 포함하는 HaluEval이다. NQ에서는 임베딩 기반 탐지기가 95% 커버리지를 달성하면서 위양성률이 0%에 가깝게 유지되었다. 이는 합성 환각이 원문과 의미적으로 크게 차이가 나기 때문에 임베딩 거리만으로도 충분히 구분할 수 있음을 의미한다.
하지만 Hal…