시각적 전제 검증을 통한 과학 차트 이해 진단 벤치마크
초록
RealCQA‑V2는 과학 차트 질문을 원자적 시각 전제로 분해하고, 각 전제가 차트에 의해 논리적으로 함의되는지를 검증하는 VPP(Visual Premise Proving) 과제를 제시한다. 5 백만 개의 전제‑결론 쌍과 1.7 백만 개 질문을 포함한 대규모 데이터셋과, 전체 체인 정확도(AccVPP)와 부분 진행도(DCP)라는 두 가지 체인‑레벨 메트릭을 제공한다. 실험 결과 최신 LVLM들은 개별 전제는 높은 정확도를 보이지만, 전제들을 일관된 논리 사슬로 연결하는 데는 크게 부족함을 드러낸다.
상세 분석
RealCQA‑V2는 기존 차트 QA 벤치마크가 최종 정답만을 평가하는 한계를 극복하고, “시각적 전제 검증”이라는 새로운 평가 패러다임을 도입한다. 핵심 아이디어는 차트 이미지와 질문을 인간이 설계한 원자적 전제로 분해하고, 각 전제를 차트의 구조적 요소(축, 눈금, 범례)와 정량적 값에 직접 매핑한다는 점이다. 전제는 네 가지 유형으로 구분된다: 구조 전제(SP), 데이터 전제(DP), 추론 전제(RP), 수학 전제(MP). 이러한 전제들은 자연어, 1차 논리식(FOL), 추상 구문 트리(AST) 세 가지 형식으로 동시 제공돼, 언어 모델, 심볼릭 엔진, 그래프 기반 모델 등 다양한 아키텍처가 동일한 평가 기준에 접근할 수 있다.
데이터 구축 과정은 크게 두 단계로 이루어진다. 첫째, PubMed Central에서 28 천 개의 실제 과학 차트를 수집하고, ChartInfo 어노테이션을 활용해 축 라벨, 눈금, 범례, 마크 등 시각 요소를 정밀히 라벨링한다. 둘째, 기존 RealCQA 질문 템플릿을 기반으로 자동 생성된 전제 템플릿을 GPT‑4o가 초안으로 만든 뒤, 인간 검수자를 통해 논리적 정확성과 차트와의 정합성을 확보한다. 결과적으로 5 백만 개 이상의 전제‑결론 쌍이 확보되었으며, 평균 전제 깊이는 9~11단계에 달한다.
평가 메트릭은 두 축으로 설계되었다. AccVPP는 전체 전제 체인이 모두 참인지 여부를 측정해 전통적인 “정답 정확도”보다 엄격한 기준을 제공한다. DCP(Depth of Correct Premises)는 체인 내에서 올바르게 검증된 전제 비율을 나타내어, 부분적으로는 성공했지만 전체 논리 일관성에서 실패한 모델을 구체적으로 진단한다. 실험에서는 GPT‑4o, Gemini‑2.5, InternVL‑3 등 최신 LVLM들을 VPP 프롬프트로 평가했으며, 전제별 정확도는 80~95% 수준이지만 전체 체인 정확도는 0%에 가까웠다. 특히, 데이터 전제와 구조 전제는 비교적 높은 정확도를 보였지만, 추론·수학 전제에서 일관성 오류가 집중되는 경향을 보였다. 이는 모델이 “시각적 사실”은 파악하지만, 이를 조합해 복합 논리를 형성하는 과정에서 논리적 비약이나 정보 누락이 발생한다는 점을 시사한다.
또한, RealCQA‑V2는 체인‑레벨 그래프 구조(G_Q)를 제공해, DAG 기반 추론 검증이나 그래프 동형성 테스트에도 활용 가능하도록 설계되었다. 이는 향후 심볼릭-뉴럴 하이브리드 모델이 전통적인 CoT 방식보다 더 정밀한 시각-언어 연동 추론을 수행하도록 돕는 토대가 된다. 마지막으로, 저자들은 VPP를 활용한 모델 훈련 및 파인튜닝 전략을 제안했으며, 전제 수준의 지도학습이 최종 정답 정확도뿐 아니라 체인 일관성에도 긍정적 영향을 미친다는 초기 실험 결과를 보고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기