VRIQ: 시각 추론 IQ 벤치마크로 본 멀티모달 모델 한계
초록
VRIQ는 추상 퍼즐과 실제 이미지 두 도메인을 아우르는 1,500개의 IQ‑스타일 문제를 제공하고, 인식·추론 별 진단 프로브를 통해 VLM의 오류 원인을 정량화한다. 실험 결과 추상 퍼즐에서는 평균 28 % 수준에 머물고, 자연 이미지에서도 45 %에 불과하며, 오류의 56 %는 순수 인식 실패, 43 %는 인식·추론 복합 실패, 순수 추론 실패는 1 %에 불과했다.
상세 분석
VRIQ는 기존 멀티모달 벤치마크가 갖는 두 가지 한계를 보완한다. 첫째, 추상 도형 퍼즐과 실제 사진을 동일한 논리 구조(시퀀스 완성, 매트릭스 예측, Odd‑One‑Out, 회전, 3D 시각화)로 구성해 도메인 간 직접 비교가 가능하도록 설계했다. 둘째, 각 문제에 대해 ‘Perceptual Probe(P‑probe)’와 ‘Reasoning Probe(R‑probe)’를 별도로 제공함으로써 모델이 시각 정보를 정확히 추출했는지, 혹은 추출된 정보를 기반으로 논리적 규칙을 적용했는지를 독립적으로 평가한다. 이 계층적 진단은 오류를 P‑only(인식 전용), R‑only(추론 전용), P+R(복합) 세 범주로 분류하고, 각 범주의 비율을 정량화한다.
실험에 사용된 모델은 오픈소스 Qwen·InternVL·LLaVA 시리즈부터 GPT‑5.1, GPT‑4o, Gemini‑2.5, OpenAI o3 등 최신 상용 모델까지 다양했다. 전체 평균 정확도는 추상 퍼즐 28 %, 자연 이미지 45 %에 그쳤으며, 툴‑증강(o3) 모델조차 5~7 %p 정도의 소폭 향상만 보였다. 오류 분석 결과, 56 %가 P‑only로 인식 단계에서 색, 형태, 개수, 위치, 3D·깊이 등 기본 시각 속성을 놓친 것이 원인이었다. 특히 ‘Shape’와 ‘Count’ 카테고리에서 실패율이 가장 높았으며, ‘3D/Depth’와 ‘Rotation/Orientation’에서도 눈에 띄는 약점이 드러났다. 반면 순수 추론 실패는 1 %에 불과했으며, 이는 현재 VLM이 논리 연산 자체보다는 시각 입력을 정확히 파악하는 데 더 큰 제약을 받는다는 것을 의미한다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 기존의 ‘시각‑언어’ 사전학습이 충분히 풍부한 이미지 인식 능력을 확보하지 못했으며, 특히 추상 도형이나 복합 3D 변환과 같은 고차원 시각 특성에 취약함을 보여준다. 둘째, 툴‑증강이나 체인‑오브‑생각 같은 고급 추론 메커니즘은 인식이 정확히 제공될 때만 효과를 발휘한다는 점이다. 따라서 향후 연구는 (1) 시각 인코더의 정밀도와 일반화 능력 강화, (2) 인식‑추론 사이의 인터페이스를 명시적으로 연결하는 메타‑추론 프레임워크, (3) VRIQ와 같은 진단 프로브를 활용한 단계별 학습 및 평가 파이프라인 구축에 초점을 맞춰야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기