캔버스 사고: 가변 구조 상태를 통한 멀티모달 추론 혁신
초록
본 논문은 기존 체인‑오브‑쓰리(Chain‑of‑Thought) 방식이 텍스트 기반의 일방향 흐름에 머무르는 한계를 지적하고, HTML Canvas와 DOM을 외부 상태 저장소로 활용해 원자적인 CRUD 연산과 시각적 검증 루프를 도입한 “Canvas‑of‑Thought(Canva‑CoT)” 프레임워크를 제안한다. 실험 결과 VCode, RBench‑V, MathVista 등 복합 멀티모달 베엔치마크에서 기존 CoT·Tree‑of‑Thought·Program‑of‑Thought 대비 현저히 높은 정확도와 토큰 효율성을 달성한다.
상세 분석
Canvas‑of‑Thought는 기존 LLM이 텍스트 시퀀스를 순차적으로 확장하면서 추론 상태를 암묵적으로 유지해야 하는 문제를 근본적으로 재구성한다. 핵심 아이디어는 “외부 상태(substrate)”를 HTML Canvas 기반 DOM 트리로 정의하고, LLM을 “Stateful Controller”로 전환해 이 트리를 직접 조작하도록 하는 것이다. 이를 위해 저자는 네 가지 원자적 CRUD 연산(Insert, Replace, Modify, Delete)을 명시적으로 정의하고, 각 연산이 적용된 후에는 headless 브라우저 엔진을 통해 즉시 렌더링한다. 렌더링된 이미지와 원본 시각 입력 사이의 차이를 평가하는 “Critic” 모듈이 피드백을 JSON 형태로 반환함으로써, 모델은 시각적 불일치를 “시각적 그라디언트”로 받아들여 다음 단계에서 정확한 수정 행동을 선택한다.
이 설계는 몇 가지 중요한 장점을 제공한다. 첫째, 비모노톤(non‑monotonic) 상태 전이가 가능해져, 초기 오류를 발견하면 전체 텍스트를 재작성할 필요 없이 해당 DOM 노드만 교체하거나 삭제할 수 있다. 이는 토큰 소비를 크게 절감하고, 긴 추론 체인에서 발생하는 “hallucination snowballing”을 억제한다. 둘째, 시각적 검증 루프는 고차원 공간(예: 기하학, SVG 디자인)에서 텍스트만으로는 표현하기 어려운 공간 제약을 명시적으로 드러낸다. 모델이 생성한 좌표나 도형이 실제 렌더링과 불일치하면 Critic이 즉시 “Attribute Error”, “False Existence”, “Spatial Conflict” 등으로 분류해 반환한다. 셋째, 컨텍스트 최적화 전략으로 매 단계마다 텍스트 사고(trace)를 폐기하고, 현재 DOM 상태와 Critic 피드백만을 다음 프롬프트에 포함한다. 이는 마르코프성(Markovian) 성질을 부여해, 과거 텍스트가 모델의 의사결정에 미치는 잡음 효과를 최소화한다.
실험에서는 VCode(코드‑이미지 변환), RBench‑V(시각‑언어 베엔치마크), MathVista(수학·시각 복합 문제) 세 가지 도메인에서 기존 최첨단 모델(GPT‑5, Gemini 2.5·3 등)과 다양한 CoT 변형(Chain‑of‑Thought, Tree‑of‑Thought, Program‑of‑Thought, Iterative Reflection) 대비 성능을 비교했다. 표 1에 제시된 결과는 특히 “Canvas‑of‑Thought” 변형이 전체 평균 정확도에서 4~7%p 상승하고, 2D·3D·수학 영역 모두에서 가장 높은 점수를 기록함을 보여준다. 또한 토큰 사용량이 평균 15% 이상 감소했으며, 오류 수정 시 재생성 없이 단일 CRUD 연산만으로 해결되는 사례가 다수 보고되었다.
한계점으로는 현재 구현이 HTML Canvas와 SVG에 국한돼 있어, 복잡한 물리 시뮬레이션이나 비정형 데이터(예: 자연어 대화)에는 직접 적용이 어려울 수 있다. 또한 Critic 모듈이 렌더링 차이를 정량화하는 방식이 이미지‑레벨에 머물러, 미세한 수치 오차를 완전히 포착하지 못하는 경우가 있다. 향후 연구에서는 보다 일반화된 외부 상태(예: 그래프 데이터베이스, 3D 엔진)와 다중 모달 Critic(텍스트·음성·동영상) 통합을 모색하고, 학습 단계에서 CRUD 연산과 Critic 피드백을 공동 최적화하는 end‑to‑end 훈련 방식을 탐구할 필요가 있다.
요약하면, Canvas‑of‑Thought는 “텍스트 → 구조화된 외부 상태 → 시각적 검증”이라는 삼각형 루프를 통해 멀티모달 LLM의 추론 효율성과 정확성을 동시에 끌어올리는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기