LLM 환각을 구분하는 기하학적 분류 체계

LLM 환각을 구분하는 기하학적 분류 체계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 “환각” 현상을 세 가지 기하학적 서명으로 구분한다. 유형 I(맥락 무시), 유형 II(허구 내용) 및 유형 III(정답 틀 안의 오류)로 나누고, 각각을 감지하기 위한 지표인 SGI와 DGI(Γ)를 제안한다. 실험 결과 DGI는 인간이 만든 허구 데이터에서 AUROC 0.958을 달성했으며, 외부 벤치마크에서도 NLI 기반 모델을 능가한다. 반면 유형 III 오류는 임베딩 기하학으로는 구별이 어려워, 기존 분류기의 높은 성능이 스타일링 편향에 기인함을 밝혀냈다.

상세 분석

이 논문은 “환각”이라는 포괄적 용어가 실제로는 서로 다른 실패 모드를 포함한다는 점을 지적하고, 이를 임베딩 공간의 기하학적 특성으로 정량화한다. 첫 번째 유형인 **Unfaithfulness(유형 I)**는 모델이 제공된 컨텍스트를 무시하고 질의(query) 자체에 머무르는 현상이다. 저자는 정규화된 임베딩 ˆϕ를 이용해 질의‑컨텍스트‑응답 사이의 각거리 θ를 계산하고, SGI = θ(r,q)/θ(r,c) 로 정의한다. SGI>1이면 응답이 컨텍스트 쪽으로 이동했음을 의미하고, SGI≤1이면 질의에 머물러 ‘의미적 게으름’을 보인다. 이 지표는 삼각 부등식이 보장하는 기하학적 일관성을 활용해, 임베딩 차원에 무관하게 적용 가능하다.

두 번째 유형인 **Confabulation(유형 II)**는 모델이 전혀 존재하지 않는 개념이나 기관을 만들어 내는 경우다. 여기서는 질의와 응답 사이의 차분 벡터 δ = ˆϕ(r)−ˆϕ(q)를 정규화해 ˆδ를 구하고, 사전 구축된 ‘정답‑컨텍스트’ 쌍 R에서 평균 방향 µ̂를 추정한다. DGI(Γ) = ˆδ·µ̂ 로 정의되며, +1에 가까울수록 정상적인 ‘그라운딩 방향’과 일치한다. 반대로 음수나 낮은 값은 비정상적인 변위, 즉 허구성을 나타낸다. 저자는 전역 µ̂와 k‑최근접 이웃 기반 지역 µ̂_q 두 버전을 제시하고, 계산 복잡도는 O(d) 수준에 불과함을 강조한다.

세 번째 유형인 **Factual Error(유형 III)**는 정답 틀은 맞지만 세부 내용이 틀린 경우다. 논문은 이 경우 임베딩이 의미적 유사성을 유지하기 때문에 기하학적 신호가 거의 없다고 주장한다. 이를 검증하기 위해 TruthfulQA 데이터에 로지스틱 회귀와 코사인 유사도 분석을 적용했으며, 거짓 답변이 질의에 더 가깝게 배치되는 역전 현상을 발견했다. 이는 스타일(길이, 어조) 차이가 임베딩 크기와 방향에 영향을 미쳐, 실제 사실 오류와는 무관한 신호를 만든다는 결론으로 이어진다.

실험에서는 인간이 만든 142개의 허구 샘플에서 DGI가 AUROC 0.958±0.034를 기록했으며, 도메인 간 성능 저하가 3.8%에 불과했다. 외부 벤치마크(WikiBio‑GPT3, FELM, ExpertQA)에서는 DGI가 NLI 기반 교차인코더보다 각각 0.131, 0.024, 0.243 만큼 높은 AUROC를 보였다. 특히 ExpertQA와 같은 전문 분야에서는 NLI가 거의 무작위 수준(0.452)인 반면 DGI는 의미적 변위 방향을 포착해 유의미한 성능을 유지한다. 반면 LLM 자체 생성 데이터(예: HaluEval)에서는 도메인 전이 성능이 급격히 떨어져, 실제 허구와 LLM이 만든 ‘거짓’ 사이에 기하학적 차이가 있음을 시사한다.

한계점으로는 인간 제작 허구 데이터 규모가 작고, 혼합형 허구(일부는 컨텍스트와 연관)에서 Γ 점수가 중간값을 보일 가능성이 제시된다. 또한 유형 II와 III의 경계가 이론적으로 증명되지 않았으며, 임베딩이 진리 조건을 반영하지 못한다는 ‘분포 가설’에 의존한다는 점을 인정한다.

전반적으로 이 논문은 LLM 환각을 기하학적 관점에서 체계화하고, 단일 임베딩 호출만으로도 유형 I·II를 효과적으로 탐지할 수 있음을 실증한다. 유형 III에 대해서는 기존 임베딩 기반 방법이 근본적으로 한계가 있음을 명확히 제시함으로써, 향후 연구가 의미론적 검증이나 외부 지식 연계와 같은 다른 신호를 결합해야 함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기