시각 착각을 파헤치는 멀티모달 LLM 벤치마크

시각 착각을 파헤치는 멀티모달 LLM 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VIA‑Bench은 색·운동·게슈탈트·기하·일반·이상 현상 등 6가지 시각 착각·이상 현상을 1,004개의 고품질 객관식 QA로 구성한 벤치마크이다. 20여 개 최신 멀티모달 LLM을 평가한 결과, 인간 평균 93 % 대비 최고 모델 69 %에 불과했으며, CoT(Chain‑of‑Thought) 프롬프트는 오히려 성능 저하와 “깨지기 쉬운 착시” 현상을 보였다.

상세 분석

본 논문은 기존 비전‑언어 벤치마크가 대부분 인‑분포 데이터에 국한되어 있어, 모델이 인간과 동일한 ‘시각 인지’를 수행하는지를 검증하기 어렵다는 점을 지적한다. 이를 보완하기 위해 저자들은 시각 착각과 시각적 이상 현상을 체계적으로 분류하고, 각 카테고리별로 인간이 직관적으로 해답을 도출할 수 있지만 기존 MLLM은 내재된 일반 상식(예: 손은 보통 5손가락)과 충돌하는 경우 오류를 범한다는 가설을 세운다.

데이터 구축 파이프라인은 (1) 이미지 수집·정제, (2) 인간‑인‑루프를 통한 질문·정답 설계, (3) 옵션 디스트랙터와 “Not Sure” 선택지를 포함한 다중 선택형 포맷, (4) 옵션 순서와 질문 polarity를 무작위화해 언어적 편향을 최소화하는 단계로 이루어진다. 특히 질문은 ‘What’, ‘How’ 두 축을 명확히 구분해 시각적 증거와 추론 과정을 동시에 요구한다.

평가에서는 두 가지 프로토콜을 사용한다. ‘Pattern Match’는 모델이 직접 정답 라벨을 선택하도록 하고, ‘LLM‑as‑Judge’는 모델이 생성한 설명을 기반으로 별도의 평가 LLM이 정답 여부를 판단한다. 20여 개 모델은 Proprietary(예: Gemini‑3‑pro, GPT‑5‑chat), Open‑source(예: Qwen‑VL, InternVL) 그리고 CoT 강화 모델(예: OpenAI‑o3, Claude‑Sonnet)로 구분되었다.

실험 결과는 세 가지 핵심 인사이트를 드러낸다. 첫째, 최고 성능 모델조차 인간 대비 20 % 이상 낮은 정확도를 보이며, 특히 기하·공간 착시와 시각 이상 카테고리에서 큰 격차가 나타난다. 둘째, CoT 프롬프트는 대부분의 경우 성능을 저하시키며, ‘brittle mirage’라 명명한 현상—즉, 모델이 중간 추론 단계에서 착시 이미지에 의해 논리적 일관성을 잃는 현상—을 야기한다. 셋째, 카테고리별 성능 편차가 심해, 모델이 특정 유형(예: 색 착시)에는 비교적 강하지만 다른 유형(예: 움직임 착시)에서는 거의 무능함을 확인한다.

이러한 결과는 현재 MLLM이 ‘시각 정보를 그대로 해석’하기보다는 대규모 텍스트‑이미지 코퍼스에서 학습된 통계적 패턴에 의존하고 있음을 시사한다. 특히 CoT가 오히려 내부 편향을 강화시키는 메커니즘으로 작동할 가능성을 제시함으로써, 향후 ‘시각‑언어’ 추론 체계에 대한 근본적인 재설계가 필요함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기