시각 생성으로 인간 수준 멀티모달 추론 구현
초록
본 논문은 인간이 내부에 구축하는 ‘세계 모델’을 컴퓨터가 시각과 언어를 동시에 활용해 구현할 수 있음을 보인다. 시각 생성이 물리·공간적 과제에서 특히 유리하다는 ‘시각 우월성 가설’을 제시하고, 이를 검증하기 위해 VisWorld‑Eval이라는 평가 스위트를 만든다. 실험 결과, 시각‑언어 연쇄 사고(Interleaved CoT)가 순수 언어 기반 CoT보다 물리·시각 과제에서 현저히 높은 성능을 보였으며, 반대 경우에는 차이가 없었다.
상세 분석
이 논문은 인간의 인지 메커니즘을 AI에 적용하기 위한 두 가지 핵심 가정을 제시한다. 첫 번째는 ‘세계 모델(World Model)’이라는 개념으로, 이는 관찰‑행동‑보상 구조를 내포한 다중 관측 마코프 결정 과정(MOMDP)으로 수학적으로 정의된다. 여기서 세계 모델은 (1) 세계 구축(World Construction)과 (2) 세계 시뮬레이션(World Simulation)이라는 두 가지 기능을 수행한다. 기존 대형 언어 모델(LLM)은 주로 언어적 세계 모델을 암묵적으로 학습해 왔으며, 이는 기호·논리적 추론에 강점이 있지만 시각·공간 정보를 직접 다루는 데는 한계가 있다.
두 번째 가정은 ‘시각 우월성 가설(Visual Superiority Hypothesis)’이다. 물리적 현상이나 공간 관계는 인간이 시각적 이미지로 내부 시뮬레이션할 때 정보 손실이 최소화되고, 선천적인 시각 지식(예: 물체 충돌, 중력)과 결합해 더 정확한 예측이 가능하다는 점을 강조한다. 따라서 시각 생성 능력을 갖춘 통합 멀티모달 모델(UMM)이 이러한 과제에서 언어 전용 모델보다 우수할 것이라고 예측한다.
이론적 프레임워크를 바탕으로 저자들은 세 가지 추론 방식을 구분한다. (i) 암묵적 언어 CoT – 세계 모델을 내부 텍스트 표현에만 의존, (ii) 명시적 언어 CoT – 외부 지식 베이스를 활용하지만 시각 정보는 사용하지 않음, (iii) 인터리브드 시각‑언어 CoT – 연쇄 사고 과정 중에 이미지 생성·수정 단계를 삽입해 시각 세계 모델을 명시적으로 구축한다.
실험 설계는 VisWorld‑Eval이라는 7가지 과제로 구성된다. 여기에는 물리 시뮬레이션(예: 물체 이동, 요리 과정), 공간 계획(예: 여행 일정, 예산 관리), 그리고 시각적 인지(예: 사진 속 물체 위치 파악) 등이 포함된다. 각 과제는 세계 구축과 시뮬레이션 요구를 명확히 구분하도록 설계돼, 모델이 어느 단계에서 시각 정보를 활용하면 이득이 있는지를 정량화한다.
주요 실험 결과는 다음과 같다. (1) 물리·공간 과제에서는 인터리브드 CoT가 순수 언어 CoT 대비 평균 12~18%p의 정확도 향상을 보였으며, 특히 복잡한 시뮬레이션 단계(예: 물이 흐르는 경로 예측)에서 시각 이미지가 중간 단계의 ‘상태’ 정보를 압축·전달하는 역할을 수행했다. (2) 순수 논리·수학 과제(예: 미로, Sokoban)에서는 시각 생성이 별다른 이득을 주지 못했으며, 오히려 이미지 생성 비용이 증가해 추론 속도가 저하되는 현상이 관찰되었다. (3) 추가 분석을 통해 기존 LLM이 암묵적으로 ‘시각적 세계 모델’을 형성하는 경우가 있음을 확인했지만, 이는 제한된 표현력과 사전 지식에 의존해 일반화가 어려웠다.
결론적으로, 논문은 멀티모달 AI가 인간 수준의 추론을 달성하려면 시각·언어 두 경로를 상황에 맞게 교차 활용해야 함을 입증한다. 시각 생성은 특히 물리·공간적 세계 모델링에서 정보 손실을 최소화하고, 인간이 직관적으로 수행하는 ‘마음속 시뮬레이션’을 기계적으로 구현하는 핵심 수단이 된다. 향후 연구는 (a) 시각‑언어 CoT의 자동 단계 최적화, (b) 더 복잡한 연속 시뮬레이션을 위한 고해상도 이미지 생성, (c) 인간의 메타인지 메커니즘을 모델에 통합하는 방향으로 진행될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기