CoTZero 인간과 같은 시각 추론을 위한 계층적 합성 CoT
초록
CoTZero는 인간의 인지 메커니즘을 모방해 이미지‑텍스트 정렬을 넘어선 시각적 추론을 구현한다. 이미지에서 원자적 시각 프리미티브를 추출하고 이를 단계적으로 조합해 질문‑추론 트리를 만든 뒤, 전역‑지역 계층 구조를 강제한다. 합성된 CoT 데이터를 기반으로 인지 정렬 강화 학습(CCVR)을 적용해 단계별 논리 일관성과 사실 정확성을 보상한다. 실험 결과, 다중 레벨 의미 불일치 벤치마크에서 F1 83.33%를 달성했으며, 각 구성 요소가 해석 가능성과 인간 친화적 추론에 기여함을 입증한다.
상세 분석
CoTZero는 두 가지 핵심 혁신을 제시한다. 첫 번째는 ‘하향‑상향’ 이중 단계 데이터 합성 파이프라인이다. 하향 단계에서는 사전 학습된 VLM이 이미지 캡션을 생성하고, 이를 LLM이 (주체, 관계, 객체) 형태의 원자적 삼중항으로 변환한다. 이러한 삼중항은 가장 단순한 시각 관계를 담고 있어 인간이 인식하는 기본 시각 프리미티브와 일치한다. 이후 원자적 질문을 생성하고, 의미 임베딩 기반 유사도 계산을 통해 질문들을 점진적으로 병합해 중간‑레벨, 최종‑레벨 질문 트리를 구축한다. 이는 인간이 전역 레이아웃을 먼저 파악하고 세부 요소를 해석하는 ‘전역‑지역’ 처리 과정을 모방한다. 상향 단계에서는 완전한 복합 질문을 다시 하위 질문들로 분해해 학습 샘플을 만든다. 이렇게 생성된 계층적 CoT 데이터는 질문‑답변 쌍뿐 아니라 각 단계별 정답 라벨을 포함해, 모델이 단계별 논리 흐름을 학습하도록 설계되었다.
두 번째 혁신은 ‘인지 정렬 강화 학습(Cognition‑Aligned Training)’이다. 합성된 CoT 데이터에 대해 모델을 먼저 SFT(지도 미세조정)로 사전 학습한 뒤, GRPO(그룹 상대 정책 최적화)와 결합된 CCVR(인지 일관 검증 보상)을 이용해 강화 학습을 수행한다. CCVR는 생성된 추론 체인과 레퍼런스 체인 사이의 편집 거리와 의미 유사도를 동시에 고려해 보상을 산출한다. 즉, 단계별 논리 일관성(편집 거리 최소화)과 의미적 정확성(시맨틱 유사도 최대화)을 동시에 최적화함으로써 인간이 추론 과정을 검증하듯 모델에게 세밀한 피드백을 제공한다. 이러한 과정은 기존의 최종 정답 기반 보상과 달리 ‘과정‑중심’ 보상을 제공해 신용 할당 문제를 완화한다.
실험에서는 멀티‑레벨 의미 불일치 벤치마크(lexical‑perturbation negatives)를 구축해 인‑도메인·아웃‑도메인 모두에서 평가하였다. CoTZero는 F1 83.33%를 기록했으며, 특히 복합 질문에 대한 정확도가 크게 상승했다. Ablation 연구에서는 (1) 하향‑상향 데이터 합성, (2) CCVR 기반 강화 학습, (3) GRPO 최적화 각각이 성능 향상에 기여함을 확인했다. 또한, 생성된 추론 체인의 해석 가능성이 인간 전문가가 평가한 기준과 높은 상관관계를 보이며, 기존 선형 CoT 방식 대비 논리적 일관성과 오류 감소에서 우수함을 입증했다.
요약하면, CoTZero는 인간 인지의 ‘생산성’와 ‘전역‑지역’ 원리를 데이터와 학습 단계에 체계적으로 도입해, VLM이 표면적 상관관계에 머무르지 않고 구조화된, 검증 가능한 시각 추론을 수행하도록 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기