시각적 사고의 한계와 정신 이미지 활용
초록
본 논문은 최신 통합 멀티모달 모델(UMM)이 인간의 정신 이미지와 유사한 시각적 사고를 통해 복합 추론을 수행할 수 있는지를 평가한다. 이를 위해 다섯 가지 시각적 과제와 난이도별 5단계로 구성된 MentisOculi 벤치마크를 제시하고, 텍스트 전용 모델, 잠재 시각 토큰 모델, 이미지‑텍스트 인터리브 UMM, 비디오 생성 모델을 실험한다. 결과는 시각적 중간 단계가 성능을 크게 향상시키지 못하고, 특히 UMM은 텍스트 추론 능력은 갖추었지만 생성된 이미지와 텍스트를 효과적으로 결합하지 못한다는 점을 보여준다.
상세 분석
MentisOculi는 “시각적 사고를 통한 정신 이미지”라는 인간 인지 메커니즘을 모델에 적용하려는 시도를 체계적으로 검증하기 위해 설계되었다. 과제는 Form Board, Hinge Folding, Paper Fold, Rush Hour, Sliding Puzzle 등으로, 모두 연속적인 시각 변환과 공간 관계를 요구한다. 난이도는 단계별로 최소 조작 횟수를 늘려 1~5레벨로 구분했으며, 각 레벨당 30개의 샘플을 절차적으로 생성해 데이터 오염 위험을 최소화한다. 모델군은 (1) 텍스트 전용 MLLM(Gemini 2.5, Gemini 3, GPT‑5.1, Qwen3‑VL), (2) 잠재 시각 토큰을 활용한 Mirage(기반 Qwen2.5‑VL), (3) 이미지‑텍스트 인터리브 UMM(Gemini 2.5‑I, Gemini 3‑I), (4) 비디오 생성 모델(Veo 3.1)으로 나뉜다. 평가 방식은 텍스트 정답 매칭, 행동 시뮬레이션, 비디오 프레임 분석 등으로 구성했으며, 인간 실험을 통해 상위 성능 기준을 제시했다. 실험 결과는 모든 모델이 난이도 상승에 따라 급격히 성능이 저하되고, 레벨 5에서는 거의 무작위 수준에 머문다. 특히 UMM은 이미지 생성이 가능함에도 불구하고 텍스트 추론 단계와 시각적 단계 사이의 정보 전달이 끊겨, 텍스트 전용 모델보다 낮은 정확도를 보였다. Mirage는 잠재 토큰을 이용해 약간의 개선을 보였지만, 난이도가 높아질수록 효과가 사라졌다. 비디오 모델은 행동 추출 과정에서 잡음이 많아 실질적인 성능 향상이 없었다. 이러한 결과는 현재 모델이 “시각적 사고”를 실제 추론 과정에 통합하지 못하고, 이미지 생성과 텍스트 논리 사이의 연계가 약함을 시사한다. 논문은 향후 연구 방향으로 시각적 상태 유지 메커니즘, 이미지‑텍스트 동기화 프로토콜, 그리고 멀티스텝 시각적 체인‑오브‑쓰(Chain‑of‑Thought) 설계 등을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기