시각‑상식 충돌에서 드러나는 VLM의 환각 현상 진단 벤치마크

본 논문은 시각적 증거와 상식이 상충할 때 비전‑언어 모델(VLM)이 시각 정보를 무시하고 상식에 따라 답변하는 ‘commonsense‑driven hallucination(CDH)’ 현상을 정의하고, 이를 체계적으로 평가하기 위한 CDH‑Bench 벤치마크를 제안한다. 카운팅·관계·속성의 3가지 차원에서 300개의 대조 이미지 쌍을 구축하고, 이진 QA와 다중 선택 QA 두 형태의 평가를 수행한다. 실험 결과 최신 VLM조차도 시각‑상식 충돌…

저자: Kesheng Chen, Yamin Hu, Qi Zhou

시각‑상식 충돌에서 드러나는 VLM의 환각 현상 진단 벤치마크
본 연구는 Vision‑Language Model(VLM)이 시각적 증거와 인간 상식이 충돌할 때 보이는 오류 패턴을 ‘commonsense‑driven hallucination(CDH)’이라고 정의하고, 이를 정량적으로 측정·분석하기 위한 벤치마크 CDH‑Bench를 제안한다. 기존 VLM 평가 벤치마크(VQA‑v2, GQA, SEED‑Bench 등)는 대부분 시각 정보와 상식이 일치하는 자연 이미지에 초점을 맞추어 왔으며, 따라서 모델이 시각적 근거 없이 사전 확률에 의존해 답을 내는지, 혹은 시각 정보를 제대로 인식하지 못하는지를 구분하기 어려웠다. 저자들은 이러한 한계를 극복하고자, 시각적 증거가 명확히 존재하지만 상식과 모순되는 상황을 인위적으로 만든다. **벤치마크 설계** - **차원 정의**: 카운팅 이상(수량), 관계 이상(관계·행동), 속성 이상(물리·색·재질) 세 가지 차원으로 구성한다. 각 차원당 100개의 이미지 쌍(총 300쌍)을 준비한다. 예시로는 손에 6개의 손가락, 고양이가 쥐를 쫓는 대신 쥐가 고양이를 쫓는 장면, 파란 바나나 등이 있다. - **이미지 생성**: 텍스트‑투‑이미지 모델을 활용하되, “정확히 k개”, “좌‑우 대칭”, “중심에 위치” 등 구체적인 구조적 제약을 프롬프트에 포함시켜 생성 과정에서 모델 자체의 상식 편향을 최소화한다. 생성된 이미지마다 인간 검증을 통해 이상이 명확히 드러나는지, 그리고 쌍 이미지가 배경·조명·구도에서 일관성을 유지하는지를 확인한다. - **평가 포맷**: 두 가지 질문 형식을 도입한다. 1. **Binary QA** – “~하고 있지 않다” 형태의 이진 질문을 동일하게 적용해, 시각‑상식 충돌이 있을 때 모델이 ‘예’ 혹은 ‘아니오’를 어떻게 선택하는지 측정한다. 2. **Multiple‑Choice QA** – 정답 외에 상식적 오답을 명시적으로 제시해, 모델이 사전 확률에 얼마나 끌리는지를 정량화한다. **평가 지표** - **CF‑Acc (Counterfactual Accuracy)**: 반사실(비정상) 이미지에서 정답을 맞힌 비율. - **CS‑Acc (Commonsense Accuracy)**: 상식 이미지에서 정답을 맞힌 비율. - **CFAD (Counterfactual Accuracy Drop)**: CS‑Acc와 CF‑Acc의 차이, 즉 시각‑상식 충돌이 성능에 미치는 감소량. - **CCR (Commonsense Collapse Rate)**: 반사실 이미지에서 상식적 오답을 선택한 비율, CDH 현상의 직접적인 지표. - **RPD (Relative Prior Dependency)**: 모델이 사전 확률에 의존하는 정도를 상대적으로 나타낸다. **실험 결과** 최신 VLM인 Qwen‑VL‑Instruct, MiniGPT‑4, LLaVA, GPT‑4‑V 등 7종을 평가했으며, 전반적으로 CF‑Acc는 30‑45% 수준에 머물렀다. 특히 다중 선택 QA에서는 CCR이 60% 이상으로, 모델이 상식적 선택지에 강하게 편향됨을 확인했다. 모델 규모가 클수록 CFAD는 다소 감소했지만, 완전한 극복은 이루어지지 않았다. ‘Thinking’ 변형(추론 단계 삽입) 모델은 약간의 개선을 보였으나, 여전히 높은 CCR을 기록했다. 이는 단순히 파라미터 수를 늘리거나 추론 과정을 추가하는 것만으로는 CDH 문제를 해결하기 어렵다는 점을 시사한다. **의의와 향후 과제** CDH‑Bench는 시각‑상식 충돌이라는 새로운 평가 차원을 도입함으로써, VLM이 실제 응용(의료 영상, 품질 검사, 과학 탐구, 포렌식 등)에서 비정상적 상황을 정확히 인식하고 보고할 수 있는지를 진단한다. 기존 벤치마크가 “시각을 인식할 수 있는가”에 초점을 맞췄다면, CDH‑Bench는 “시각을 인식하면서도 상식에 휘둘리지 않는가”를 묻는다. 제시된 지표와 데이터셋은 향후 모델 설계 시 시각적 충실성을 강화하고, 사전 편향을 억제하는 방향으로 연구를 이끌 수 있다. 또한, CDH 현상을 완화하기 위한 방법론(예: 시각‑상식 충돌을 명시적으로 학습에 포함, 사전‑후처리 단계에서의 불확실성 추정 등) 개발에 대한 기반을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기