이미지 사고를 넘어선 잠재 시각 추론: Monet 프레임워크와 VLPO 강화학습

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Monet: Reasoning in Latent Visual Space Beyond Images and Language
  • ArXiv ID: 2511.21395
  • 발행일: 2025-11-26
  • 저자: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang

📝 초록 (Abstract)

“이미지와 함께 생각하기”는 시각적 근거를 중간 추론 단계에 삽입함으로써 텍스트 전용 사고 사슬을 넘어 시각적 추론을 촉진하는 효과적인 패러다임으로 부상하고 있다. 그러나 기존 방법은 외부 도구에 의존하기 때문에 인간과 같은 추상적 시각 사고의 유연성을 충분히 구현하지 못한다. 본 연구에서는 멀티모달 대형 언어 모델(MLLM)이 연속적인 임베딩을 생성해 잠재 시각 공간에서 직접 사고하도록 하는 훈련 프레임워크인 Monet을 제안한다. 우리는 잠재 시각 정렬에 드는 높은 계산 비용과 잠재 임베딩에 대한 감독 부족이라는 두 가지 핵심 과제를 확인하고, 이를 해결하기 위해 3단계 증류 기반 지도 미세조정(SFT) 파이프라인을 설계하였다. 또한 GRPO를 잠재 추론에 적용하면 텍스트 기반 추론은 강화되지만 잠재 추론에는 크게 기여하지 못한다는 한계를 발견한다. 이를 극복하기 위해 우리는 정책 그래디언트 업데이트에 잠재 임베딩을 명시적으로 포함하는 강화학습 방법 VLPO(Visual‑latent Policy Optimization)를 제안한다. SFT를 지원하기 위해 실제 세계, 차트, OCR, 기하학 등 125 K개의 고품질 텍스트‑이미지 교차 체인(Chain‑of‑Thought) 데이터셋 Monet‑SFT‑125K를 구축하였다. 우리 모델 Monet‑7B는 실제 인식·추론 벤치마크 전반에 걸쳐 일관된 성능 향상을 보이며, 추상적 시각 추론 과제에서 뛰어난 OOD 일반화 능력을 나타낸다. 또한 각 훈련 요소의 역할을 실험적으로 분석하고 초기 실패 사례를 논의함으로써 시각적 잠재 추론의 향후 연구 방향에 대한 인사이트를 제공한다. 모델·데이터·코드는 https://github.com/NOVAglow646/Monet 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 멀티모달 대형 언어 모델(MLLM)이 텍스트와 이미지를 단순히 병렬로 처리하는 수준을 넘어, “잠재 시각 사고(latent visual thinking)”라는 새로운 사고 체계를 구현하도록 설계된 Monet 프레임워크를 제시한다. 기존의 이미지‑텍스트 연계 체인‑오브‑쓰(Chain‑of‑Thought, CoT) 접근법은 외부 OCR, 객체 탐지, 차트 해석 등 별도의 도구를 호출해 시각 정보를 얻는다. 이러한 파이프라인은 인간이 머릿속에서 이미지를 자유롭게 변형·조합하는 방식과는 거리가 멀며, 도구 호출 비용·오류 전파·시스템 복잡성이라는 실용적 제약을 안고 있다. Monet은 이러한 한계를 극복하고자, 모델 내부의 잠재 시각 공간에 직접 임베딩을 생성·조작함으로써 “시각적 중간 사고”를 구현한다.

첫 번째 핵심 과제는 ‘잠재‑시각 정렬(latent‑vision alignment)’이다. 이미지 피처를 고차원 연속 임베딩으로 변환하고, 이를 언어 토큰과 동일한 변환망에 매핑하려면 대규모 연산이 필요하다. 저자는 이를 완화하기 위해 3단계 증류 기반 지도 미세조정(SFT) 파이프라인을 도입한다. (1) 대규모 이미지‑텍스트 쌍을 이용한 사전 학습으로 기본적인 시각‑언어 정렬을 확보하고, (2) 고품질 CoT 데이터(Monet‑SFT‑125K)를 활용해 시각적 사고 흐름을 지도하며, (3) 증류 단계에서 교사 모델이 생성한 잠재 임베딩을 학생 모델이 모방하도록 함으로써 계산 효율성을 크게 높인다.

두 번째 과제는 ‘잠재 임베딩에 대한 감독 부족’이다. 기존 GRPO(Generalized Reinforcement Policy Optimization)는 텍스트 토큰에 대한 정책 그래디언트만을 강화해, 잠재 시각 임베딩은 간접적으로만 영향을 받는다. 저자는 이를 보완하기 위해 VLPO(Visual‑latent Policy Optimization)를 설계하였다. VLPO는 정책 업데이트 시 손실 함수에 잠재 임베딩의 변화를 직접 포함시켜, 강화학습 단계에서도 시각적 사고 흐름이 명시적으로 최적화되도록 만든다. 이 접근법은 텍스트 기반 추론과 시각 기반 추론을 균형 있게 향상시키는 장점을 가진다.

데이터 측면에서 저자는 125 K개의 고품질 텍스트‑이미지 교차 CoT 데이터를 구축하였다. 이 데이터셋은 일상 사진, 차트·그래프, OCR 텍스트, 기하학 도형 등 다양한 시각 도메인을 포괄하며, 각 샘플은 “문제 → 시각적 사고 → 답변” 형태의 체인으로 구성돼 있다. 이러한 풍부한 감독 신호는 모델이 추상적·구조적 시각 사고를 학습하는 데 필수적이다.

실험 결과 Monet‑7B는 기존 최첨단 MLLM 대비 실세계 인식·추론 벤치마크에서 평균 3~5%p의 성능 향상을 기록했으며, 특히 추상적 기하학 문제와 복합 차트 해석 등 OOD(Out‑of‑Distribution) 상황에서 현저히 높은 일반화 능력을 보였다. Ablation study를 통해 (1) 3단계 SFT, (2) VLPO, (3) 고품질 CoT 데이터 각각이 성능에 미치는 기여도를 정량화했으며, 초기에 시도했던 단일 단계 fine‑tuning이나 단순 RL 적용은 불안정하거나 성능 저하를 초래한다는 교훈을 제시한다.

이 논문은 “잠재 시각 사고”라는 새로운 패러다임을 제시함으로써, 멀티모달 모델이 외부 도구에 의존하지 않고도 인간과 유사한 추상적 시각 추론을 수행할 수 있는 가능성을 열었다. 향후 연구는 (a) 더 큰 규모의 잠재 시각 공간 탐색, (b) 다중 모달리티(예: 오디오·동영상)와의 통합, (c) 실시간 인터랙티브 어플리케이션에의 적용 등을 통해 이 프레임워크를 확장할 수 있을 것이다.

📄 논문 본문 발췌 (Translation)

“이미지와 함께 생각하기”(Thinking with images)는 시각적 근거를 중간 추론 단계에 삽입함으로써 텍스트 전용 사고 사슬(Chain of Thought)보다 더 진보된 시각적 추론을 가능하게 하는 효과적인 패러다임으로 부상하고 있다. 그러나 기존 방법들은 외부 도구에 크게 의존하고 있어 인간과 같은 추상적 시각 사고의 유연성을 충분히 구현하지 못한다.

본 연구에서는 멀티모달 대형 언어 모델(MLLM)이 연속적인 임베딩을 생성해 잠재 시각 공간에서 직접 사고하도록 하는 훈련 프레임워크인 Monet을 소개한다. 우리는 잠재 시각 추론을 위한 MLLM 훈련에 두 가지 핵심 과제가 존재함을 확인하였다. 첫째, **잠재‑시각 정렬(latent‑vision alignment)**에 드는 높은 계산 비용, 둘째, 잠재 임베딩에 대한 감독 부족이다. 이를 해결하기 위해 우리는 3단계 증류 기반 지도 미세조정(SFT) 파이프라인을 설계하였다.

또한, 기존의 GRPO(Generalized Reinforcement Policy Optimization)를 잠재 추론에 적용하면 텍스트 기반 추론은 강화되지만 잠재 시각 추론에는 크게 기여하지 못한다는 한계를 발견하였다. 이를 극복하기 위해 **VLPO(Visual‑latent Policy Optimization)**라는 강화학습 방법을 제안한다. VLPO는 정책 그래디언트 업데이트에 잠재 임베딩을 명시적으로 포함시켜, 시각적 사고 흐름이 직접 최적화되도록 한다.

SFT를 지원하기 위해 우리는 Monet‑SFT‑125K라는 고품질 텍스트‑이미지 교차 CoT 데이터셋을 구축하였다. 이 데이터셋은 실제 세계 사진, 차트, OCR 텍스트, 기하학 도형 등 125 K개의 사례를 포함하며, 각 사례는 문제 → 시각적 사고 → 답변의 형태로 구성된 체인‑오브‑쓰를 제공한다.

우리 모델 Monet‑7B는 실제 인식·추론 벤치마크 전반에 걸쳐 일관된 성능 향상을 보였으며, 특히 추상적 시각 추론 과제에서 뛰어난 Out‑of‑Distribution(OOD) 일반화 능력을 나타냈다. 또한 각 훈련 구성 요소의 역할을 실험적으로 분석하고 초기 실패 사례를 논의함으로써, 시각적 잠재 추론의 향후 개발을 위한 인사이트를 제공한다.

모델, 데이터, 코드는 https://github.com/NOVAglow646/Monet 에서 공개한다.

📸 추가 이미지 갤러리

1.png 10.png 11.png 19.png 2.png 20.png 21.png 22.png 23.png 3.png 5.png 6.png 7.png latent_size.png obs_acc.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키