- Title: CogFlow Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
- ArXiv ID: 2601.01874
- 발행일: 2026-01-05
- 저자: Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan
📝 초록
각종 진전에도 불구하고 다중 모달의 대형 언어 모델들은 시각 수학 문제 해결에서 여전히 어려움을 겪고 있다. 최근 연구들은 시각적 인식이 시각 수학 사고의 병목 현상임을 인지하였지만, 그들의 해법은 주로 시각적 입력의 추출과 해석 개선에 한정되어 있다. 특히, 추출된 시각적 단서들이 후속 사고 과정에서 신뢰성 있게 통합되고 적절히 활용되는 문제는 간과되었다. 이를 극복하기 위해 우리는 인식$\Rightarrow$내부화$\Rightarrow$사고라는 인간의 계층적 사고 흐름을 명시적으로 시뮬레이션하는 새로운 인지 기반 세 단계 프레임워크인 CogFlow를 제안한다. 이러한 계층적 흐름에 맞추어 모든 단계를 통합적으로 강화하였다. 매개변수적 및 의미 공간에서의 시각 정보 추출을 개선하기 위해 상호 보완적인 시각적 리워드를 설계하여 인식 능력을 높였다. 추출된 시각적 단서들이 후속 사고 과정에 신뢰성 있게 통합되도록 내부화 단계에서는 지식 내부화 리워드 모델을 도입하여 인식과 사고 사이의 연결을 강화하였다. 또한, 사고가 시각적 지식 위에 기반하도록 더 강하게 제약하기 위해 시각 게이트 정책 최적화 알고리즘을 설계하여 일관되지만 시각적으로 무근거인 사고 체인을 피할 수 있도록 하였다. 추가로 새로운 데이터셋 MathCog를 제공하여 모델 훈련에 기여하였으며, 이는 12만 개 이상의 고품질 인식-사고 정합성 주석을 포함하고 있다. 일반적으로 사용되는 시각적 수학 사고 벤치마크에서 실시된 포괄적인 실험과 분석은 제안된 CogFlow의 우수성을 검증한다.
💡 논문 해설
1. **주요 기여 1: 신경과학에서 영감을 받은 새로운 접근 방식**
이 논문에서는 인지 과학의 발견을 바탕으로 한 새로운 시도인 CogFlow를 소개합니다. 이 모델은 인간의 사고 프로세스를 흉내 내어, 시각적 정보를 정확하게 추출하고 이를 합리적인 사고 단계에 통합하는 방법론을 제시합니다. 이는 기존 모델들이 시각 요소를 추출하는데만 초점을 맞추었던 것과 달리, 추출된 정보가 실제 사고 과정에서 어떻게 사용되는지에 대한 문제에도 주목하고 있습니다.
주요 기여 2: 강화학습을 통한 복합적 시각 요소 인식 향상
CogFlow는 시각적 인식과 추론 사이의 상호작용을 강화하는 새로운 접근 방식인 Synergistic Visual Rewards (SynVRs)를 도입합니다. 이 방법은 시각 정보의 질을 파라미터 공간과 의미 공간에서 측정하고, 이를 바탕으로 더 정확한 인식 결과를 얻는 데 초점을 맞춥니다.
주요 기여 3: 학습 과정에서의 안정성 향상
CogFlow는 Visual-Gated Policy Optimization (VGPO)을 통해 시각적 요소와 추론 사이의 정확성을 강화합니다. 이를 통해 CogFlow는 추론 단계가 시각적 정보에 더 밀착되게 하여, 더욱 안정적인 사고 과정을 보장합니다.
📄 논문 발췌 (ArXiv Source)
# 소개
다중모드 대형 언어 모델(MLLMs)은 급속히 발전하고 있으며 다양한 시각-언어 응용 분야에 적용되고 있습니다. 그러나 기존 MLLMs는 여전히 복잡한 시각적 수학 문제를 해결하는 데 어려움을 겪고 있어 정답의 정확도가 낮고 추론 과정이 일관되지 않습니다. 초기 몇몇 시도들은 시각 인식과 추론을 직접적으로 혼합하는 단일 단계 추론 프레임워크를 채택하였지만, 이는 종종 인식 및 추론 오류를 초래합니다. 다른 연구에서는 분리된 추론 파이프라인을 따르며 시각 인식과 추론 부분을 명시적으로 구분하여 전자는 시각 인식에 집중하고 후자는 그 다음 추론을 담당하도록 합니다. 그러나 실제 사용에서 이러한 파이프라인이 추론 흐름의 이탈 현상을 보이는 경우가 많습니다, 즉, 시각적 증거를 무시하는 비논리적인 또는 부당한 추론 단계를 내놓는 경향이 있습니다(그림 3 참조). 이러한 관찰은 단순히 수학적 시각 요소의 정교한 인식뿐만 아니라 추출된 시각적 힌트를 후속 추론에 충실하게 통합하는 새로운 접근법 개발을 촉구합니다.
/>
단일 단계 프레임워크는 구조화되지 않은 추론을 제공하는 반면, 분리된 파이프라인은 흐름을 모듈러하게 분해합니다. 우리는 지식 내재화가 포함된 인지에서 영감 받은 세 단계 프레임워크를 채택합니다. />
세 가지 대표적인 파이프라인에 대한 추론 흐름 분석. 정확도가 높을수록 추론 이탈 현상이 적습니다.단일 단계 추론 프레임워크(e.g., VLM-R1 )는 종종 부적절한 결과를 내놓지만, 분리된 추론 파이프라인(e.g., MathFlow )은 시각 인식을 개선하나 여전히 비논리적인 추론 단계를 제공하여 시각적 증거를 무시하는 경우가 많습니다. 이에 대비해, CogFlow는 인간의 사고 프로세스의 계층 구조를 더 잘 반영하도록 인지에서 영감 받은 세 단계 프레임워크를 채택하여 추론 이탈 현상을 효과적으로 완화합니다.
인지 과학의 발견에 기반한 CogFlow는 인간 사고 프로세스의 흔적이 잘 나타난 새로운 세 단계 시각 수학 추론 프레임워크를 소개합니다. 구체적으로, 인식이 원시 감각 입력을 포착한 후에는 중간 지식 내재화 단계가 낮은 레벨의 인식 신호를 구조화되고 의미상 기반 지식 표현으로 변환하기 전에 고레벨 추론이 시작됩니다(예: 인간들이 직선 $`AB`$가 지름이고 점 $`C`$가 원 위에 있다는 시각적 사실을 내재화하여 $\angle ACB = 90^\circ$라는 지식으로 변환하는 것). 그림 1에서 보듯이, 시각 정보의 정확한 추출과 추론 과정에서 충실한 사용을 보장하기 위해 CogFlow는 인간 사고 흐름의 계층적 순서(perception$\Rightarrow$internalization$\Rightarrow$reasoning)를 명시적으로 모델링하고 이에 따라 세 단계를 일치하여 전반적으로 개선합니다, 각 개선은 인간 사고 프로세스에서 해당 단계의 기능 역할을 맞춤화합니다.
이전 접근법과 달리, 시각 인식을 추론 트래젝토리와 분리하고 특별한 작업으로 강화하지 않음에도 불구하고 CogFlow는 Synergistic Visual Rewards (SynVRs)를 통한 통합된 강화학습(Reinforcement Learning, RL) 프레임워크에 시각 인식 강화를 먼저 통합합니다. 이를 통해 동적인 시각-추론 상호작용을 가능하게 하며 일반화를 개선합니다. 구체적으로, SynVRs는 두 가지 다른 관점에서 모델을 보완적으로 최적화합니다: (1) 정규화된 원시 요소(예: 점, 직선, 원)를 인코딩하고 매개변수 공간에서 유클리드 거리를 계산하여 정확하고 해석 가능한 측정을 하는 시각 파라미터화 보상(VPR); (2) 재렌더링된 이미지(텍스트 기반 시각 인식 출력으로부터 도출됨)로부터 의미 임베딩을 추출하고 의미 공간에서 코사인 거리를 측정하여 전체적인 스타일과 레이아웃 일관성을 포착하는 시각 의미 보상(VSR). 함께, SynVRs는 국소 기하학적 정확성뿐만 아니라 전반적인 시각적 일관성을 확보하고 효과적인 시각 수학 추론의 기반이 되는 신뢰할 수 있는 시각적 힌트를 형성합니다.
특히, 인식 강화에 대한 진행에도 불구하고 이전 모든 노력은 다이어그램에서 정확한 수학 정보를 추출하는 데만 초점을 맞추고 있으며, 중요한 질문을 간과하고 있습니다: 추출된 시각적 힌트가 후속 추론에 충실하게 통합되고 있나? 그림 2에서 보듯이, 우리의 경험적인 결과는 일반적인 추론 이탈 현상(즉, 기존 방법의 추론 단계가 종종 시각적 결과로부터 이탈함)을 드러내며, 이는 일관된 것처럼 보이는 추론 체인임에도 불구하고 근본적인 시각적 증거와 충돌하는 경우를 초래합니다. 이러한 이탈을 방지하고 해석 가능성을 개선하기 위해 **CogFlow는 지식 내재화 보상(IntlzR)을 활용하여 인식과 추론 단계 사이의 연결을 제공하며 모델이 구조화되고 추론 가능한 출력(즉, 내재화된 지식 표현)**을 생성하도록 장려합니다. 구체적으로 우리는 시각 인식 및 추론 과정을 통합하고 명시적인 인식 원시 요소 내재화를 포함하는 긍정적 트래젝토리를 수집하고 더 나아가 5개의 대표적 부정적 트래젝토리도 도출합니다. 이러한 트래젝토리로 훈련을 수행함으로써 보상 모델은 각 응답이 내재화된 표현에 얼마나 충실한지를 평가할 수 있습니다. IntlzR은 지식 내재화 단계를 효과적으로 개선하여 환상을 줄이고 해석 가능성을 높이며 견고함을 향상시킵니다.
인간 사고의 계층적 흐름에 따라 시각 인식 및 지식 내재화 강화를 넘어서 다단계 시각 추론을 더욱 개선합니다. 기존 접근법은 시각 목표 없이 텍스트 중심 RL 패러다임을 따르거나 인식과 추론 간의 구조적 의존성을 무시하는 경우가 많습니다. 이를 통해 인식 오류가 존재할 때에도 더 안정적인 추론을 보장하기 위해 CogFlow는 시각적 정확성에 기반한 추론 과정을 명시적으로 고려하는 Visual-Gated Policy Optimization (VGPO) 전략을 도입합니다. VGPO에서는 시각 게이트가 인식 품질 평가를 통해 인식 트래젝토리를 적응적으로 필터링하여 후속 추론 트래젝토리 생성에 앞서 고품질만 유지하도록 설계되어 있습니다. 낮은 품질의 시각적 트래젝토리가 필터링되면 모델은 대체 트래젝토리를 재생성하여 더 높은 품질의 응답을 얻습니다. 제안된 시각 게이트와 함께 VGPO는 최종 결과에 기반한 추론 보상(Inference Reward)을 통합하여 다단계 시각 추론을 더욱 강화합니다.
연구를 위한 지원을 위해 우리는 새로운 MathCog 데이터셋을 수집하여 모델 훈련을 용이하게 합니다. 이 데이터셋은 세 가지 하위 집합과 고품질의 인식-추론 일치 주석을 포함한 120,000개 이상의 샘플로 구성되어 있습니다. 우리는 널리 사용되는 시각 수학 문제 해결 벤치마크에서 CogFlow를 종합적으로 평가하기 위해 광범위한 실험을 수행합니다. 결과는 CogFlow이 동등한 모델 크기의 최신 MLLMs보다 일관되게 우수하다고 보여줍니다. 특히, 훨씬 더 큰 모델 크기를 가진 고급 폐쇄 소스 MLLMs와 비교하여 비슷하거나 더 나은 결과를 달성합니다. 이 논문의 주요 기여는 다음과 같이 요약할 수 있습니다:
이전 모든 연구는 추출된 시각적 힌트가 실제로 추론에 충실하게 사용되는지에 대해 간과했습니다. 이를 해결하기 위해, 우리는 인간 사고의 계층적 흐름을 충실히 모방하는 새로운 인지에서 영감 받은 세 단계 프레임워크인 CogFlow를 제시합니다: 인식$\Rightarrow$내재화$\Rightarrow$추론.
인간 사고 계층에 맞춰, CogFlow는 모든 세 단계를 전반적으로 개선합니다. SynVRs는 파라미터 및 의미 공간에서 정확하고 완전한 다이어그램 인식을 보완적으로 강화하며; IntlzR은 시각적 출력을 후속 추론에 사용되는 표준 컨텍스트로 충실하게 변환하는 지식 내재화 능력을 향상시키며; VGPO는 고품질의 인식 트래젝토리를 필터링하고 추론의 안정성을 강화하는 시각 게이트를 사용합니다.
모델 훈련을 지원하기 위해, 우리는 분리된 시각 및 추론 주석을 포함한 새로운 데이터셋 MathCog을 수집했습니다. 다수의 시각 수학 벤치마크에서 수행한 포괄적인 실험은 CogFlow이 정답의 정확도와 추론 품질 모두에서 실질적인 성능 개선을 달성함을 입증합니다.
관련 연구
MLLMs를 통한 시각 수학 추론. 시각적 수학 문제(예: 기하 다이어그램, 대수 플롯 등) 해결에는 강력한 추론 능력뿐만 아니라 시각 원시 요소와 상징적 내용의 정확한 해석이 필요합니다. 대부분 이전 연구는 추론 과정을 개선하는 데 초점을 맞추었으며, 이를 위해 사고 체인 전략, 도구 지원된 추론, 테스트 시간 스케일링 및 강화학습을 사용했습니다. 최근 몇몇 연구들은 시각적 수학 추론의 주요 병목 현상 중 하나가 부정확한 시각적 이해라는 것을 제안하고 있습니다. 이들 대부분은 인식과 추론을 분리하고, 특수한 시각 인코더를 설계하거나 보조 시각 작업을 도입함으로써 인식을 강화합니다. 그러나 이전 연구들은 정확하게 추출된 시각적 힌트가 실제로 후속 추론에 충실하게 통합되는지 여부라는 중요한 문제를 간과하고 있습니다.
다중모드 추론을 위한 강화학습. 전통적인 액터-크리틱 방법, 예를 들어 근접 정책 최적화와 같은 방법들은 계산 비용이 많이 듭니다. 가벼운 대안으로는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)가 있습니다. 이 방법은 그룹 기준을 사용하여 우위 추정을 안정화시킵니다. 그 변형들()이 널리 연구되었음에도 불구하고, GRPO는 다중모드 추론에 대한 확장도 이루어졌습니다. 일부 확장은 훈련 중 선호 신호를 추가한 하이브리드 보상 형식을 도입하고 있으며, 다른 방법들은 단계별 다중모드 강화학습 패러다임(e.g., OVR)을 제안합니다. 그러나 기존 방법은 시각 인식과 추론 간의 정합성을 강화하는 명시적 메커니즘이 부족하여 종종 추론이 시각적 내용에 충분히 뿌리를 두지 못하는 경우가 많습니다.
CogFlow: 인지에서 영감 받은 계층적 프레임워크
style="width:100.0%" />
제안된 시각 수학 추론 프레임워크 CogFlow의 개요. 인간 사고의 기본적인 세 단계 흐름에서 영감을 받아, CogFlow는 Synergistic Visual Rewards (SynVRs)를 통한 인식 강화, 지식 내재화 보상(IntlzR)을 통해 시각과 추론 사이의 연결을 구축하고, Visual-Gated Policy Optimization (VGPO) 및 Inference Reward (InfR)를 사용하여 추론 과정을 시각적 정확성에 기반하게 하는 계층적인 파이프라인을 채택합니다.
인간의 사고 프로세스에서 흔히 볼 수 있는 인지 과정(perception$\Rightarrow$internalization $\Rightarrow$reasoning)에서 영감을 받아, CogFlow는 시각적 수학 추론 강화 학습 프레임워크로서 내재화 단계를 명시적으로 구현합니다(그림 4). 훈련 전, 우리는 먼저 후속 훈련을 지원하는 MathCog를 수집합니다(그림 13). 구체적으로, CogFlow의 훈련 파이프라인은 두 단계로 구성됩니다: 감독 학습(Supervised Fine-tuning, SFT) 단계와 강화학습(RL) 단계. SFT 단계에서는 기반 모델에 초기 시각 인식 및 기본 추론 능력을 부여합니다. MathCog-SFT 데이터셋을 기반으로 합니다. RL 단계에서는 Visual-Gated Policy Optimization (VGPO) 프레임워크를 통해 MathCog-RL 데이터셋에서 정책을 최적화하여 추론 과정이 시각적 정확성에 기반하게 합니다. 구체적으로, VGPO는 추론 트래젝토리 생성 전에 시각 게이트를 통해 인식 트래젝토리를 적응적으로 필터링합니다. 또한, VGPO의 보상은 세 가지 구성 요소로 이루어집니다: 신뢰할 수 있는 인식을 형성하는 Synergistic Visual Rewards (SynVRs), 추론 이탈을 감지하는 지식 내재화 보상(IntlzR) 및 결과에 기반한 최적화를 제공하는 추론 보상(Inference Reward, InfR).
시각적 정확성을 갖춘 신뢰할 수 있는 인식 형성
CogFlow은 Synergistic Visual Rewards (SynVRs)부터 시작하여 동적인 시각-추론 상호작용을 가능하게 하며 일반화를 개선합니다. 구체적으로, 제안된 SynVRs는 두 가지 보완적 구성 요소(VPR과 VSR)로 이루어져 있습니다. 이들 각각은 파라미터 및 의미 공간에서 인식의 품질을 평가하여 강화학습 훈련 루프에 통합되는 시너지 효과적인 시각 피드백을 제공합니다.
/>
/>
VGPO 파이프라인. VGPO는 시각 게이트와 여러 보상 요소를 도입하여 다단계 시각 추론을 강화합니다. 인식 품질 제어와 결과 기반 최적화의 결합은 안정성을 증가시킵니다.
파라미터 공간에서의 시각적 정확성 측정. 그림 [fig:vr]에 보여듯, VPR은 구조화된 시각 정보를 매개변수 표현으로 변환합니다. 예를 들어, 원시 요소인 Circle $`(0.01, -0.46, 7.68)`$는 방정식 $`(x-0.01)^2+(y+0.46)^2=7.68^2`$로 변환됩니다.
그 후, GT Primitives $`\mathcal{G}`$와 예측된 Primitives $`\mathcal{P}`$ 사이의 비용 행렬 $`\mathcal C`$를 계산하고 햄링턴 매칭 알고리즘을 적용하여 최적의 일대일 매칭 $`\mathcal{H}`$를 얻습니다.