증거 기반 신뢰성 강화 위한 반사실 이미지 사고 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeFacto는 이미지와 텍스트를 동시에 활용하는 멀티모달 언어 모델이 답변 정확도와 시각적 증거와의 일관성을 동시에 만족하도록 설계된 학습 프레임워크이다. 질문에 핵심이 되는 영역을 자동으로 추출하고, 해당 영역을 유지한 긍정 샘플, 영역을 마스킹한 반사실 샘플, 무관한 영역을 마스킹한 랜덤 샘플을 생성해 약 10만 장의 데이터셋을 만든다. 이후 GRPO 기반 강화학습으로 정답 정확도, 증거 선택, 증거‑답변 일관성 세 가지 보상을 동시에 최적화한다. 실험 결과, 기존 모델 대비 답변 정확도와 증거‑답변 일관성이 모두 크게 향상되었으며, 인간이 검증한 1.5k 샘플의 신뢰성 평가에서도 우수한 성능을 보였다.

상세 분석

DeFacto는 멀티모달 언어 모델이 “정답을 맞추는 것”에만 집중하는 기존 패러다임을 넘어, 증거‑답변 일관성(evidence‑answer consistency) 을 핵심 목표로 삼는다. 이를 위해 세 가지 상보적인 학습 형태를 도입한다. 첫 번째인 Positive 샘플에서는 질문에 직접적으로 연관된 영역(R⁺)을 그대로 제공하고, 모델이 해당 영역을 바운딩 박스로 선택하면서 정답을 도출하도록 보상한다. 두 번째인 Counterfactual 샘플은 R⁺를 완전히 마스킹하고, 모델이 증거가 부족함을 인식해 “Unknown”과 같은 회피 토큰을 출력하도록 강제한다. 이는 모델이 증거가 없을 때 무리하게 추론하는 것을 방지한다. 세 번째인 Random‑Masking 샘플은 무관한 영역(R⁻)을 마스킹함으로써, 마스크 자체가 정답을 유도하는 편향을 차단한다. 이렇게 구성된 세 종류의 샘플은 동일 이미지·질문에 대해 증거 유무만을 변수로 바꾸어 반사실(counterfactual) 데이터 를 자동 생성한다는 점에서 비용 효율성이 뛰어나다.

데이터 구축 파이프라인은 크게 두 단계로 이루어진다. ① 질문을 입력으로 MLLM(Qwen2.5‑VL)에게 키 디스크립터(예: “빨간 컵”, “셔츠에 적힌 글자”)를 추출하게 하고, ② 이 디스크립터와 RPN·OCR이 제시하는 후보 영역을 매칭한다. 객체 영역은 오픈‑보카블러 디텍터(DINO‑X)로, 텍스트 영역은 OCR 결과와 문자열 매칭을 통해 R⁺를 선정한다. 매칭되지 않은 후보는 R⁻로 분류한다. 이 과정은 완전 자동화돼 인간 라벨링 없이도 100k 규모의 DeFacto‑100K 데이터를 만든다.

학습 단계에서는 GRPO(Generalized Reward Policy Optimization) 기반 강화학습을 적용한다. 보상 함수는 (1) 정답 정확도, (2) 선택된 바운딩 박스와 정답 간의 일치도, (3) 증거‑답변 일관성(증거가 없을 때 회피 토큰을 내는 정도) 세 가지를 가중합한다. 특히 증거‑답변 일관성 보상은 모델이 선택한 영역이 실제 정답을 뒷받침하는지를 평가하는 Evidence‑Answer Consistency Score 를 도입해, 증거와 답변이 불일치할 경우 큰 페널티를 부여한다. 이렇게 하면 모델은 “정답을 맞추는” 것보다 “정답을 뒷받침하는 증거를 제시하는” 행동을 학습하게 된다.

실험에서는 VQA, OK‑VQA, GQA 등 다양한 멀티모달 QA 벤치마크와 새로 만든 인간 검증 데이터 DeFacto‑1.5K 에서 성능을 검증한다. 기존 최첨단 모델(Deepeyes, GRIT 등) 대비 정답 정확도는 평균 2~~4%p 상승했으며, 증거‑답변 일관성 지표는 10~~15%p 크게 개선되었다. 특히 Spurious Correctness(증거는 틀리지만 정답은 맞는 경우)와 Faithful Incorrectness(증거는 맞지만 정답이 틀린 경우) 를 크게 감소시켰다. 인간 평가에서도 모델이 선택한 바운딩 박스와 정답 설명이 높은 상관관계를 보이며, “Unknown”을 적절히 출력하는 경우가 늘어 신뢰성이 향상된 것으로 나타났다.

DeFacto의 주요 기여는 다음과 같다. (1) 증거와 답변을 동시에 최적화하는 반사실 학습 프레임워크 제안, (2) 자동 증거 추출·마스킹 파이프라인을 통한 대규모 반사실 데이터 구축, (3) 증거‑답변 일관성을 명시적으로 보상하는 GRPO 기반 강화학습 설계, (4) 인간 라벨링을 포함한 새로운 평가 벤치마크 제공. 이러한 접근은 멀티모달 모델이 단순히 “정답을 맞추는” 수준을 넘어, 시각적 근거에 기반한 추론 을 수행하도록 만드는 중요한 발판이 된다. 향후 연구에서는 더 정교한 증거 유형(세그멘테이션, 깊이 정보 등)과 다중 라운드 대화 상황에 적용해, 복합적인 시각‑언어 상호작용에서도 신뢰성 있는 추론을 보장하는 방향으로 확장할 수 있을 것이다.

증거 기반 신뢰성 강화 위한 반사실 이미지 사고 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기