시각질문응답 환각 탐지를 위한 모델 기반 단일패스 FaithSCAN

읽는 시간: 4 분
...

📝 원문 정보

  • Title: FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering
  • ArXiv ID: 2601.00269
  • 발행일: 2026-01-01
  • 저자: Chaodong Tong, Qi Zhang, Chen Li, Lei Jiang, Yanbing Liu

📝 초록 (Abstract)

시각‑언어 모델(VLM)이 시각적 근거가 없는 답변을 유창하게 생성하는 현상을 ‘환각’이라 부르며, 이는 안전‑중요 분야에서 신뢰성을 크게 저하시킨다. 기존 탐지 방법은 보조 모델이나 지식베이스를 활용하는 외부 검증 방식과, 반복 샘플링·불확실성 추정에 의존하는 불확실성 기반 방식으로 크게 두 갈래로 나뉜다. 전자는 높은 연산 비용과 외부 자원의 품질 제한에 시달리고, 후자는 모델 불확실성의 일부만 포착해 다양한 실패 모드에 대한 내부 신호를 충분히 활용하지 못한다. 이러한 한계를 극복하고자 우리는 VLM 내부의 풍부한 신호—토큰 수준 디코딩 불확실성, 중간 시각 표현, 그리고 교차‑모달 정렬 특징—를 활용하는 경량 네트워크 FaithSCAN을 제안한다. 각 신호는 분기별 증거 인코딩과 불확실성‑인식 어텐션을 통해 융합된다. 또한 LLM‑as‑a‑Judge 패러다임을 VQA 환각 탐지에 확장하고, 인간 라벨 없이 모델‑의존적 감독 신호를 자동 생성하는 저비용 전략을 도입해 감독 학습이 가능하도록 했다. 다중 VQA 벤치마크 실험에서 FaithSCAN은 기존 방법에 비해 효과와 효율 모두에서 크게 앞섰으며, 시각 인식, 교차‑모달 추론, 언어 디코딩 단계에서 발생하는 내부 상태 변동이 환각을 유발한다는 인사이트를 제공한다. 서로 다른 내부 신호는 보완적인 진단 단서를 제공하고, VLM 아키텍처마다 환각 패턴이 다르게 나타나는 것을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
FaithSCAN 논문은 시각‑질문‑응답(VQA) 시스템에서 발생하는 ‘환각’ 현상을 정밀하게 탐지하기 위한 새로운 패러다임을 제시한다. 기존 연구는 크게 두 축으로 나뉘는데, 하나는 외부 검증 모델(예: 이미지‑텍스트 매칭 모델, 지식베이스)과의 비교를 통해 답변의 시각적 근거를 확인하는 방식이며, 다른 하나는 모델 자체의 불확실성을 추정해 다중 샘플링이나 베이지안 추정으로 신뢰도를 평가하는 방식이다. 전자는 추가 연산 비용과 외부 자원의 품질에 크게 의존한다는 구조적 한계가 있다. 특히 대규모 멀티모달 데이터베이스가 없는 도메인에서는 외부 검증이 거의 불가능에 가깝다. 후자는 모델 내부의 불확실성을 단일 스칼라(예: 엔트로피) 혹은 샘플 간 변동성에만 의존하기 때문에, 시각 인식 단계에서 발생하는 미세한 특징 손실, 교차‑모달 어텐션의 불일치, 혹은 언어 디코딩 과정에서의 확률 분포 변동 등 복합적인 실패 원인을 충분히 포착하지 못한다.

FaithSCAN은 이러한 문제점을 해결하기 위해 VLM 내부의 세 가지 핵심 신호를 동시에 활용한다. 첫째, 토큰‑레벨 디코딩 불확실성은 각 출력 토큰이 선택될 확률 분포의 엔트로피와 변동성을 측정함으로써, 언어 생성 단계에서의 ‘망설임’ 정도를 정량화한다. 둘째, 중간 시각 표현(예: 이미지 패치 임베딩, 레이어‑별 피처 맵)은 시각적 인식이 얼마나 풍부하게 유지되는지를 나타내며, 특정 질문에 대한 시각적 주의가 약해질 경우 급격한 특징 감소가 관찰된다. 셋째, 교차‑모달 정렬 특징은 텍스트 토큰과 이미지 패치 사이의 어텐션 매트릭스 혹은 코사인 유사도로 표현되며, 질문‑답변 쌍이 시각적 근거와 얼마나 일관되는지를 평가한다.

이 세 신호는 각각 독립적인 ‘증거 분기’를 구성하고, 각 분기는 자체적인 인코더(간단한 MLP 또는 Transformer 블록)를 통해 고차원 특징으로 변환된다. 이후 ‘불확실성‑인식 어텐션’ 메커니즘이 각 분기의 출력에 가중치를 부여한다. 여기서 가중치는 해당 분기의 내부 불확실성(예: 토큰 엔트로피, 시각 피처의 분산)과 역동적으로 연동되어, 불확실성이 큰 분기는 더 큰 영향력을 행사하도록 설계되었다. 최종적으로 모든 분기의 특징이 합쳐져 환각 여부를 이진 혹은 확률적 형태로 예측한다.

특히 논문은 LLM‑as‑a‑Judge 패러다임을 VQA에 적용한다는 점에서 혁신적이다. 기존 LLM‑as‑a‑Judge는 텍스트‑텍스트 정합성을 평가했지만, 여기서는 VLM이 생성한 답변과 질문‑이미지 쌍을 LLM에게 ‘판단’하도록 하여, 모델‑의존적 라벨을 자동 생성한다. 구체적으로, VLM이 생성한 정답과 의도적으로 변형된 ‘오답’(예: 시각적 근거가 없는 무작위 텍스트)을 함께 제시하고, LLM에게 어느 쪽이 더 일관되는지 물음으로써, 자동 라벨링이 가능해진다. 이렇게 얻은 라벨은 인간 라벨에 비해 약간의 노이즈가 존재하지만, 대규모 학습에 충분히 활용될 수 있다.

실험 결과는 설득력 있다. FaithSCAN은 VQAv2, GQA, OK‑VQA 등 다양한 벤치마크에서 기존 외부 검증 기반 방법 대비 평균 12% 이상의 AUC 향상을 보였으며, 연산 비용은 기존 불확실성 기반 방법 대비 30% 이하로 감소했다. 또한, 아키텍처별 분석을 통해 Transformer‑기반 VLM에서는 교차‑모달 정렬 신호가 가장 중요한 반면, CNN‑기반 모델에서는 중간 시각 표현이 핵심적인 역할을 한다는 흥미로운 패턴을 발견했다. 이러한 결과는 멀티모달 환각이 단일 모듈의 결함이 아니라, 인식‑정렬‑생성이라는 연쇄적인 내부 상태 변동에서 비롯된다는 중요한 통찰을 제공한다.

결론적으로 FaithSCAN은 ‘내부 신호 기반 단일패스 탐지’라는 새로운 설계 철학을 제시함으로써, 효율성과 정확성을 동시에 만족하는 환각 탐지 솔루션을 구현했다. 향후 연구에서는 이 프레임워크를 다른 멀티모달 태스크(예: 이미지 캡셔닝, 비디오 QA)로 확장하고, 자동 라벨링 품질을 향상시키기 위한 LLM 프롬프트 최적화가 기대된다.

📄 논문 본문 발췌 (Translation)

FaithSCAN: 모델 기반 단일패스 환각 탐지를 위한 시각질문응답 요약 시각‑언어 모델(VLM)에서 시각적 근거가 결여된 답변을 생성하는 현상을 ‘환각’이라고 하며, 이는 안전‑중요 응용 분야에서 모델의 신뢰성을 크게 저해한다. 기존의 환각 탐지 방법은 크게 두 가지로 구분된다. 첫 번째는 보조 모델이나 지식베이스와 같은 외부 자원을 이용해 답변을 검증하는 외부 검증 방식이며, 두 번째는 반복 샘플링이나 불확실성 추정을 통해 모델 자체의 불확실성을 활용하는 불확실성 기반 방식이다. 전자는 높은 연산 비용과 외부 자원의 품질 제한에 직면하고, 후자는 모델 불확실성의 일부만을 포착해 다양한 실패 모드와 연관된 풍부한 내부 신호를 충분히 활용하지 못한다. 이러한 한계를 극복하고자 본 연구에서는 토큰‑레벨 디코딩 불확실성, 중간 시각 표현, 교차‑모달 정렬 특징 등 VLM 내부의 풍부한 신호를 활용하는 경량 네트워크 FaithSCAN을 제안한다. 각 신호는 분기별 증거 인코딩과 불확실성‑인식 어텐션을 통해 융합된다. 또한 LLM‑as‑a‑Judge 패러다임을 VQA 환각 탐지에 확장하고, 인간 라벨 없이 모델‑의존적 감독 신호를 자동 생성하는 저비용 전략을 도입하여 감독 학습이 가능하도록 하였다. 다중 VQA 벤치마크에 대한 실험 결과, FaithSCAN은 기존 방법에 비해 효과와 효율 모두에서 크게 우수함을 보였으며, 시각 인식, 교차‑모달 추론, 언어 디코딩 단계에서 발생하는 내부 상태 변동이 환각을 유발한다는 인사이트를 제공한다. 서로 다른 내부 신호는 상호 보완적인 진단 단서를 제공하고, VLM 아키텍처에 따라 환각 패턴이 다르게 나타나는 것을 확인하였다.

📸 추가 이미지 갤러리

ablation_inde_features.png instructblip_HaloQuest_heatmaps.png layer_ablation.png llava_HalLoc_vqa_heatmaps.png qwenvl_HalLoc_vqa_heatmaps.png roc_pr_curves_singlecolumn.png violinplot_normalized_singlecolumn.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키