거짓 인용으로 드러낸 LLM 환각 현상 시각화와 벤치마크
초록
본 논문은 허위 인용을 포함한 거짓 주장 데이터를 모아 FalseCite 벤치마크를 구축하고, GPT‑4o‑mini, Falcon‑7B, Mistral‑7B 모델의 환각 빈도를 정량화한다. 또한 모델 내부 은닉 상태를 추출·시각화하여 ‘뿔 모양’ 클러스터 구조를 발견함으로써 환각 메커니즘을 탐색한다.
상세 분석
FalseCite 데이터셋은 FEVER와 SciQ 두 공개 코퍼스를 결합해 총 82 000개의 거짓 주장과 두 종류의 인용(무작위·의미론적 매칭)을 생성하였다. 무작위 인용은 의미적 일치가 없으므로 모델이 인용 자체를 신뢰하게 만들 가능성을 테스트하고, 의미론적 매칭은 실제 인간이 인용을 사용할 때와 유사한 상황을 재현한다. 실험에서는 GPT‑4o‑mini(대형), Falcon‑7B, Mistral‑7B(소형) 세 모델을 대상으로, GPT‑4.1을 ‘전문가 라벨러’로 활용해 각 응답을 환각/비환각으로 분류하였다. 라벨러는 인용의 진위 여부를 직접 검증할 수 없으므로, 인용이 ‘그럴듯’하면 비환각, 명백히 부조화하면 환각으로 판단하도록 설계돼 라벨링 편향을 최소화했다.
결과는 모든 모델에서 거짓 인용이 환각 비율을 크게 상승시켰으며, 특히 GPT‑4o‑mini는 기본 환각율이 낮음에도 불구하고 인용이 추가될 때 가장 큰 절대 증가(≈40%p)를 보였다. 무작위 인용이 의미론적 인용보다 환각을 더 많이 유발했지만, 의미론적 인용도 여전히 유의미한 상승을 일으켰다. 이는 모델이 인용 텍스트의 표면적 신뢰성을 과도하게 일반화한다는 점을 시사한다.
내부 상태 분석에서는 각 토큰 생성 과정에서 5개의 가장 영향력 있는 레이어를 Spearman 상관계수 기반으로 선정하고, 해당 레이어의 attention 벡터(평균, 최대, 엔트로피)와 은닉 상태를 결합해 4 544 차원의 벡터를 만든다. PCA로 100 차원으로 차원 축소 후 k‑means 클러스터링을 수행했으며, 클러스터별 환각 비율을 점수화해 최적 k를 탐색했다. 시각화된 결과는 ‘뿔(horn) 형태’의 연속적인 곡선을 나타냈으며, 이는 환각이 발생할 때 특정 레이어와 토큰 위치에서 은닉 상태가 일관된 방향으로 변한다는 가설을 뒷받침한다. 비환각 응답은 이 곡선의 초기 구간에 머무는 반면, 환각 응답은 뒤쪽으로 이동해 뿔의 끝부분에 몰린다.
한계점으로는 라벨링에 GPT‑4.1을 사용한 점, 인간 주석이 부족한 점, 그리고 모델 내부 분석이 attention 중심에 국한돼 전체 네트워크 동역학을 완전히 포착하지 못한다는 점을 언급한다. 향후 연구에서는 인간 라벨링을 도입하고, 다른 내부 신호(예: feed‑forward activations, gradient 흐름)와 결합해 다차원적 환각 메커니즘을 정밀히 규명할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기