시각‑언어 혼합 사유 흐름을 위한 잠재 임베딩 기반 체인오브생각
초록
본 논문은 텍스트와 시각 정보를 교차로 삽입하는 “모달‑믹스드 체인오브생각(Modal‑Mixed CoT)”을 제안한다. VLM의 비전 인코더를 활용해 중간 시각 상태를 압축된 잠재 임베딩으로 변환하고, 특수 토큰으로 diffusion 기반 디코더를 호출해 고해상도 시각 세부 정보를 복원한다. 학습은 (1) 텍스트‑잠재 교차 시퀀스를 이용한 지도 미세조정과 (2) 언제 모달을 전환할지 학습하는 강화학습 두 단계로 진행한다. 11개의 멀티모달 추론 벤치마크에서 기존 텍스트‑전용 CoT 및 최신 멀티모달 방법보다 일관된 성능 향상을 보이며, 시각‑집중 과제에서 특히 큰 이득을 얻는다.
상세 분석
이 연구는 기존 체인오브생각(CoT)이 텍스트 기반이라 시각‑집중 문제에 한계를 보이는 점을 정확히 짚고, 인간의 “스케치패드” 메커니즘을 모델에 도입한다는 점에서 혁신적이다. 핵심 아이디어는 VLM 자체의 비전 인코더와 커넥터를 재활용해 중간 이미지의 시각 피처를 압축하고, 이를 “잠재 스케치”라는 연속형 임베딩으로 표현한다는 것이다. 이렇게 하면 VLM이 이미 학습한 시각 표현 공간과 완벽히 정렬된 상태에서 시각 정보를 생성·소비할 수 있다.
시각 디코더는 diffusion 모델을 경량화한 stacked‑MLP 형태로 설계했으며, 텍스트 토큰이
학습 절차는 두 단계로 나뉜다. 첫 단계인 Supervised Fine‑Tuning(SFT)에서는 인간이 주석한 텍스트‑이미지 교차 CoT 시퀀스를 사용해 다음 토큰 예측 손실과 잠재 임베딩 재구성 손실을 동시에 최적화한다. 여기서 잠재 임베딩은 평균 풀링을 통해 고정 길이로 압축되며, diffusion 디코더는 노이즈 예측 손실(ℓ₂)로 학습된다. 두 번째 단계인 강화학습(RL)에서는 모델이 자체적으로 모달 전환 시점을 탐색하도록 하고, 정답 일치 여부를 보상으로 사용한다. GRPO 방식을 적용해 정책 업데이트 시 텍스트와 시각 스케치가 상호 보완되는 트레이스를 선호하도록 유도한다.
실험은 11개의 멀티모달 추론 벤치마크(3D 공간 추론, 멀티‑이미지 논리 질의, 시계열 비디오 이해 등)를 포괄한다. Modal‑Mixed CoT는 텍스트‑전용 CoT 대비 평균 35%p의 정확도 상승을 기록했으며, 특히 시각‑집중 과제에서는 710%p의 큰 개선을 보였다. Ablation 연구에서 diffusion 디코더를 제거하거나 VLM 인코더를 외부 모델로 교체하면 성능이 급격히 떨어지는 것을 확인했다. 이는 제안된 시각‑잠재 정렬과 역할 분리가 핵심임을 입증한다.
한계점으로는 잠재 임베딩의 차원 축소 과정에서 일부 고해상도 정보를 손실할 가능성이 있으며, diffusion 디코더의 단계 수(T)와 샘플링 비용이 추론 속도에 영향을 준다. 또한 현재는 고정된 K개의 잠재 스케치를 생성하도록 설계돼, 동적 길이 조절이 어려운 점이 있다. 향후 연구에서는 가변 길이 스케치, 더 효율적인 디코더 설계, 그리고 인간‑기계 협업을 통한 스케치 품질 향상 방안을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기