자동 검증 기반 과학 시각 질문답변 데이터셋 VeriSciQA
초록
VeriSciQA는 논문 내 그림을 인용하는 본문 문단에서 질문·정답을 생성하고, 해당 답을 그림으로 검증하는 교차‑모달 자동 검증 파이프라인을 통해 만든 20,272개의 고품질 과학 시각 QA 데이터셋이다. 오픈소스 LVLM과 최신 상용 모델 사이에 15.9% 정확도 격차가 존재함을 확인하고, VeriSciQA로 파인튜닝한 모델은 기존 SVQA 벤치마크에서 일관된 성능 향상을 보인다.
상세 분석
본 논문은 과학 논문 그림을 이해하고 질문에 답하는 과학 시각 질문답변(SVQA) 분야에서 데이터 부족이라는 근본적인 병목을 해결하고자 한다. 기존 LVLM 기반 데이터 생성 방식은 그림과 캡션만을 입력으로 사용해 질문·답변을 만들었으나, 모델 고유의 환각(hallucination)과 그림‑본문 간 정보 비대칭으로 인해 E1~E4라는 네 가지 유형의 오류가 빈번히 발생한다. 이를 극복하기 위해 저자들은 ‘교차‑모달 검증(Cross‑Modal Verification)’ 프레임워크를 설계하였다. 핵심 아이디어는 (1) 그림을 인용하는 본문 문단을 LLM에 입력해 원자적 주장(claim)들을 추출하고, 각 주장으로부터 질문과 정답을 생성함으로써 정보 비대칭을 최소화하고, (2) 생성된 정답을 LVLM이 그림을 직접 분석해 검증함으로써 시각적 근거가 없는 답을 걸러낸다. 구체적으로, 텍스트‑전용 LLM(M_text)은 문단에서 “The figure shows …” 형태의 원자적 주장들을 추출하고, 이를 질문·정답(Q, A*) 형태로 변환한다. 이후 시각‑전용 LVLM(M_gen)은 해당 질문·정답과 그림을 입력받아 의미상 타당한 오답 옵션을 생성해 다중 선택 형태를 완성한다. 검증 단계에서는 (i) 텍스트 기반 필터(V_src)로 질문·정답이 원문 주장과 일관되는지, 시각적 의존성을 갖는지 확인하고, (ii) 시각 기반 필터(V_vis_dep, V_vis_con)를 통해 LVLM(M_verify)이 그림을 보고 정답과 옵션이 시각적으로 일치하는지를 self‑consistency 방식으로 판단한다. 모든 필터를 통과한 QA 쌍만이 최종 데이터셋에 포함된다. 이 설계는 텍스트‑기반 생성과 시각‑기반 검증이 서로 다른 모달리티에 의존하므로, 동일한 환각이 동시에 발생할 확률을 크게 낮춘다. 데이터 규모는 20,272개이며, 20개 과학 분야와 12가지 그림 유형(라인 차트, 바 차트, 히트맵 등)을 포괄한다. 실험 결과, 오픈소스 LVLM(예: LLaVA‑13B)은 VeriSciQA에서 65% 정확도를 기록했으며, 상용 모델(예: GPT‑4V)은 80.5%에 달해 15.9%p 차이를 보였다. 또한, 기존 SVQA 데이터셋(ArXivQA, SPIQA 등)으로 파인튜닝한 모델에 비해 VeriSciQA로 파인튜닝한 모델이 평균 +2.05%p 성능 향상을 보였으며, 데이터 양을 500→20k로 확대할수록 성능이 단조롭게 상승한다. 인간 평가에서도 기존 데이터셋 대비 오류율이 현저히 낮고, 질문·답변의 자연스러움과 시각적 근거 충실도가 우수함이 확인되었다. 이처럼 교차‑모달 검증 파이프라인은 데이터 품질을 자동으로 보장하면서도 대규모 확장이 가능하다는 점에서 오픈소스 SVQA 연구에 중요한 전환점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기