이미지 사고를 위한 LLM 한계와 외부 시각 모듈의 가능성
본 논문은 최첨단 대형 언어 모델(LLM)이 3D 회전과 같은 공간적 사고에 취약함을 확인하고, 외부 이미지 모듈을 연동한 이중‑모듈 구조를 실험했다. 결과는 정확도가 최고 62.5%에 머물며, 모델이 시각‑공간 원시 프리미티브(깊이·운동·단기 예측)와 이미지‑텍스트 통합 추론 능력이 부족함을 드러낸다.
저자: Sergio Y. Hayashi, Nina S. T. Hirata
본 논문은 인간의 정신 이미지 이론(예: Paivio의 이중 부호화 이론, Kosslyn의 시각‑예측 이론)을 출발점으로, 최신 대형 언어 모델(LLM)이 공간적 사고, 특히 3차원 물체의 정신 회전과 같은 작업에서 인간 수준에 미치지 못한다는 사실을 실증한다. 이를 검증하기 위해 저자들은 “이미지 모듈”이라 명명한 외부 시각 엔진(Python/PyVista)을 구축하고, 이를 LLM과 이중‑모듈 구조로 연결했다. LLM은 텍스트 기반 추론 엔진으로, 회전 명령(예: “left:30”)을 생성하고 이미지 모듈에 전달한다. 이미지 모듈은 명령을 실행해 현재 시점의 3D 물체를 2D 이미지로 렌더링하고, 그 결과를 LLM에 반환한다. 이 과정을 반복하면서 LLM은 물체의 회전 경로를 추론하고, 최종적으로 주어진 선택지 중 올바른 회전 결과를 선택한다.
실험은 SpatialViz 3D 회전 벤치마크를 사용했으며, 물체는 단순한 큐브 조합으로 구성돼 인간이 쉽게 해결할 수 있는 수준이다. 베이스라인으로는 기존 연구에서 보고된 최고 성능(Claude‑3.7‑Sonnet, 36.25%)과 인간 평균(79.16%)을 제시한다. 저자들은 GPT‑5.2를 직접 테스트해, 이미지 모듈 없이 단일 턴 텍스트만으로 50%의 정확도를 기록, 기존보다 향상된 베이스라인을 확보했다.
다양한 조건을 설정해 성능을 분석했다. (1) 리셋 명령을 허용해 물체를 정규화된 뷰포인트로 되돌리는 경우, LLM은 2D 이미지 비교만으로 문제를 해결해 97.5%에 달하는 높은 정확도를 보였다. 이는 LLM이 시각 정보를 “정적 이미지”로만 처리할 때는 충분히 성능을 발휘함을 의미한다. (2) 실제 회전 과정을 요구하는 조건에서는 정확도가 62.5% 이하로 급격히 떨어졌다. 특히, 회전 힌트를 제공하거나 점진적 회전만 허용해도 성능 향상은 미미했다. (3) 프롬프트 변형 실험에서, 명령어 형식·반복 횟수·피드백 제공 방식을 바꾸어도 근본적인 한계는 해소되지 않았다.
저자들은 이러한 결과를 두 가지 핵심 결함으로 귀결한다. 첫째, LLM은 깊이, 움직임, 단기 동적 예측 등 저수준 시각 신호를 추출·표현하는 능력이 부족하다. 둘째, 이미지와 텍스트 사이의 “주의‑전환·시각‑언어 통합 추론” 메커니즘이 부재해, 이미지 모듈이 제공하는 지속적인 3D 상태를 활용하지 못한다. 즉, LLM은 이미지 모듈을 “도구” 수준으로만 인식하고, 인간이 정신 이미지에서 수행하는 전역적·구조적 변환을 내부적으로 재현하지 못한다.
논문은 이러한 한계를 극복하기 위한 두 가지 방향을 제시한다. (1) 이미지 모듈을 외부 도구가 아니라, 내부적으로 시각 프리미티브를 학습·통합할 수 있는 통합 아키텍처로 설계한다. (2) 모델이 시각‑공간 원시 정보를 직접 처리하도록 훈련 데이터와 손실 함수를 재구성한다. 최종적으로, 인간과 유사한 “시각‑정신 이미지” 기반 추론을 구현하려면, 현재의 토큰 기반 트랜스포머 구조를 넘어선 새로운 패러다임이 필요함을 강조한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기