만화로 사고하기 구조화된 시각 스토리텔링으로 멀티모달 추론 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정적 이미지와 비디오 사이의 중간 매체로서 만화를 활용한 “Thinking with Comics” 패러다임을 제안한다. 만화는 패널 간의 시간·인과 관계와 텍스트를 동시에 제공해 복잡한 다단계 추론을 저비용으로 가능하게 한다. 두 가지 구현 경로(엔드‑투‑엔드 시각화 추론, 만화를 VLM의 조건문맥으로 활용)를 실험적으로 검증했으며, 수학·논리 추론과 장문 문서 이해 과제에서 기존 이미지·비디오 기반 방법보다 높은 정확도와 낮은 연산 비용을 기록했다. 또한 패널 순서와 내러티브 스타일이 성능에 미치는 영향을 분석해 만화가 효과적인 중간 시각 표현임을 입증한다.

상세 분석

이 연구는 멀티모달 추론에서 정적 이미지가 시간적 흐름을 전달하지 못하고, 비디오는 높은 연산 비용과 중복 프레임 문제를 야기한다는 기존 한계를 정확히 짚고 있다. 이를 해결하기 위해 ‘만화’를 고밀도 시각 매체로 선택했으며, 패널 하나에 복수의 객체·관계·텍스트가 동시에 포함될 수 있어 정보 효율성이 뛰어나다. 두 가지 경로는 각각 다른 설계 철학을 반영한다. Path I는 이미지 생성 모델(Gemini‑3 Pro Image)을 이용해 질문을 입력으로 받아 연속적인 패널을 생성하고, 마지막 패널에서 답을 추출한다. 여기서는 생성 과정 자체가 추론을 수행하므로 모델 내부의 잠재 상태 전이 hₜ 를 시각적으로 드러낸다. 그러나 생성 모델의 표현력에 전적으로 의존하므로 복잡한 논리 구조를 다룰 때 한계가 있을 수 있다. Path II는 동일한 만화 생성 후, 원 질문과 함께 이를 VLM(Gemini‑3 Pro)에게 입력해 텍스트와 시각 정보를 결합해 최종 답을 도출한다. 이 방식은 만화를 명시적인 중간 변수 z 로 취급함으로써 기존 텍스트 기반 CoT와 유사한 구조적 장점을 유지하면서, 시각적·시간적 정보를 추가한다. 실험에서는 MA TH‑500, GSM8K, MathV ista 등 다단계 수학·논리 문제와 DocVQA, eBDtheque, CulturalBench 등 장문·문서 이해 과제를 사용했다. 결과는 ‘Thinking with Comics’가 이미지 기반(TWI)보다 10~20%p 높은 정확도를 보이며, 비디오 기반(Sora 2) 대비 연산 비용이 크게 낮음에도 불구하고 비슷하거나 더 나은 성능을 달성함을 보여준다. 특히 내러티브 스타일(탐정형, 문화형 등)이 과제 유형에 맞게 선택될 때 성능 향상이 관찰되었으며, 패널 순서를 무작위로 섞으면 정확도가 현저히 떨어지는 등 시간·인과 구조가 핵심임을 확인했다. 한계점으로는 현재 만화 생성이 텍스트‑투‑이미지 모델에 의존해 품질이 모델에 따라 크게 변동하고, 복잡한 수식이나 미세한 도형 표현에 한계가 있다는 점을 들 수 있다. 향후 연구에서는 만화 전용 생성 모델을 훈련하거나, 패널 간 관계를 그래프 형태로 명시적으로 모델링하는 방법이 제안된다.

만화로 사고하기 구조화된 시각 스토리텔링으로 멀티모달 추론 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기