EndoCoT 확장 가능한 내생 사유 사슬을 통한 디퓨전 모델 단계별 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EndoCoT는 멀티모달 대형 언어 모델(MLLM)의 텍스트 인코더를 단일 패스가 아닌 반복적인 “생각” 상태로 업데이트하여, 디퓨전 트랜스포머(DiT)의 디노이징 과정에 동적으로 연결한다. 반복 사고 가이드와 최종 사고 정합 모듈을 통해 복잡한 공간·논리 문제(미로, TSP, VSP, Sudoku 등)를 단계별로 해결하고, 평균 정확도 92.1%를 달성한다.

상세 분석

본 논문은 현재 MLLM‑기반 디퓨전 모델이 직면한 두 가지 근본적 한계를 정확히 짚어낸다. 첫째, 기존 파이프라인은 MLLM을 한 번만 인코딩해 정적인 텍스트 임베딩을 생성한다. 이는 인간이 문제를 풀 때 여러 차례 사고를 거치는 “Chain‑of‑Thought”(CoT)와 정반대이며, 복잡한 논리 제약을 한 번에 압축하려다 실패한다. 저자들은 레이어‑와이즈 민감도 분석을 통해 논리 추론이 주로 LLM(또는 MLLM) 최상위 레이어에서 발생하지만, 단일 전방패스에서는 충분히 발휘되지 않음을 확인한다.

둘째, DiT는 텍스트 임베딩을 고정된 조건으로 받아들여 디노이징 단계 전체에 걸쳐 동적인 피드백을 제공하지 못한다. 복잡한 공간 토폴로지를 가진 입력(예: 32×32 미로)에서는 텍스트‑시각 교차‑어텐션의 엔트로피가 급격히 증가해, 텍스트 토큰과 이미지 패치 간의 정합이 흐려진다. 결과적으로 모델은 초기 몇 단계에서 최종 해답을 “고정”하고 이후 단계에서는 단순히 시각적 품질만 개선하는 현상이 나타난다.

이 두 문제를 해결하기 위해 제안된 EndoCoT는 크게 두 모듈로 구성된다. 1) Iterative Thought Guidance: MLLM의 내부 잠재 상태를 “Thought Token” 형태로 반복 업데이트한다. 각 사고 단계 τ에서 이전 단계의 생각(h_{τ‑1})을 입력으로 받아 새로운 생각(h_τ)을 생성하고, 이를 DiT에 조건 신호(c_τ)로 전달한다. DiT는 이 동적인 신호를 이용해 현재 시점의 노이즈를 제거하면서 시각적 출력 I_τ를 생성한다. 이렇게 하면 모델이 문제를 점진적으로 탐색하고, 논리적 제약을 단계별로 검증·수정할 수 있다.

Terminal Thought Grounding: 최종 사고 단계에서 생성된 생각 h_T를 정답 텍스트와 정렬한다. 저자는 텍스트‑이미지 쌍을 이용한 교차‑엔트로피 손실과 함께, 생각과 정답 사이의 의미적 거리(예: cosine similarity)를 최소화하는 추가 손실을 도입한다. 이는 사고 흐름이 “드리프트” 없이 목표 해답에 수렴하도록 보장한다.

학습 단계는 두 단계로 나뉜다. 첫 번째 단계에서는 모든 사고 단계와 중간 시각 출력을 동시에 학습해 전체 추론 궤적을 습득한다. 여기서는 라벨이 있는 중간 사고 텍스트(예: “현재 위치는 (2,8)”, “다음 이동은 오른쪽”)를 활용해 지도 학습을 수행한다. 두 번째 단계에서는 중간 단계의 파라미터를 고정하고, 최종 사고와 최종 이미지 품질만을 미세 조정한다. 이렇게 하면 초기 단계에서 학습된 논리 흐름을 손상시키지 않으면서, 최종 출력의 디테일을 향상시킬 수 있다.

실험 결과는 설득력 있다. Maze, TSP, VSP, Sudoku 등 네 가지 베치마크에서 평균 92.1%의 정확도를 기록했으며, 가장 강력한 베이스라인(예: DiffThinker, Qwen3‑VL‑8B)보다 8.3%p 상승했다. 특히 복잡도 증가(예: Maze‑32, Sudoku‑35)에 대해 90%·95% 수준의 높은 성공률을 보이며, 기존 모델이 초기에 해답을 고정하고 이후 단계에서 붕괴되는 현상과 달리, EndoCoT는 단계별 사고 사슬을 시각적으로도 명확히 드러낸다.

이 논문은 디퓨전 모델에 CoT 메커니즘을 도입한 최초 시도이며, “내생(Endogenous) 사고 사슬”이라는 개념을 통해 텍스트‑시각 연동을 동적으로 재구성한다는 점에서 학술적·실용적 의의가 크다. 향후 더 큰 규모의 MLLM과 결합하거나, 비전‑언어 인터페이스를 넘어 로봇 제어·시뮬레이션 등 연속적 의사결정이 요구되는 도메인에 적용할 가능성이 기대된다.

EndoCoT 확장 가능한 내생 사유 사슬을 통한 디퓨전 모델 단계별 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기