다중모달 사실 수준 인용을 통한 검증 가능한 추론 평가
초록
MuRGAt는 비디오·오디오·그래프 등 이질적인 입력을 활용해 다중단계 추론을 요구하는 질문에 대해, 모델이 각 사실적 주장마다 정확한 모달리티와 시간 구간을 명시한 인용을 제공하도록 설계된 벤치마크이다. 자동 평가 파이프라인(MuRGAt‑Score)은 인간 주석과 높은 상관성을 보이며, 최신 MLLM들이 정답을 맞추더라도 인용을 허위로 생성하거나 누락하는 문제가 심각함을 밝혀낸다.
상세 분석
MuRGAt는 기존 멀티모달 grounding 연구가 “관찰 기반” 혹은 “시각 단일 모달리티”에 국한된 한계를 극복하고자, (1) 사실 수준(atomic fact)으로 주장들을 분해하고, (2) 각 사실에 대해 모달리티·시간 구간을 포함한 정밀 인용을 요구한다는 점에서 혁신적이다. 평가 프로토콜은 세 단계로 구성된다. 첫 단계인 ‘Verifiable Claim Identification’에서는 LLM 기반 검증자를 활용해 문장이 직접 관찰 가능한지 판단하고, 인용이 없는 경우를 자동 배제한다. 두 번째 단계인 ‘Atomic Fact Decomposition’은 문장을 최소 단위의 사실들로 쪼개고, 인용 집합을 그대로 전파함으로써 사실‑인용 매핑을 보존한다. 마지막 ‘Attribution Quality’에서는 각 사실‑인용 쌍에 대해 ‘Recall(전제 충분성)’과 ‘Precision(불필요 인용 배제)’를 측정한다. 특히, 시간 구간과 모달리티를 동시에 고려하는 정밀도·재현율 계산은 기존 텍스트‑전용 지표와 차별화된다.
실험에서는 WorldSense와 Video‑MMMU 두 데이터셋에 인간 주석을 수집해 금본위 기준을 마련했으며, Gemini‑2.5‑Flash, Gemini‑3‑Pro, Qwen‑3‑Omni 등 최신 MLLM들을 평가했다. 결과는 모델이 정답을 도출하더라도 인용 정확도는 평균 30% 이하로 낮으며, 특히 복합 추론이 요구되는 질문에서는 인용 누락·허위 인용이 급증한다는 점을 보여준다. 자동 평가 지표인 MuRGAt‑Score는 인간 평점과 Pearson 0.84의 높은 상관을 기록했으며, LLM‑as‑judge 기반 베이스라인(0.59)보다 크게 앞선다.
흥미로운 부수 결과로, 인용 생성 자체가 “추론 세금”(reasoning tax) 역할을 하여 단순 인식 과제에서는 성능 저하가 미미하지만, 복잡한 논리 전개가 필요한 경우 성능이 급격히 떨어진다. 프로그램적 접근(추론과 인용을 분리)으로 인용 품질은 개선되지만, 전체 정확도는 손해를 보는 트레이드오프가 관찰된다. 또한 모델 규모와 추론 노력(think‑step) 사이의 비선형 관계가 드러나, 대형 모델은 더 많은 compute에서 grounding이 향상되지만, 소형 모델은 오히려 악화되는 현상이 보고되었다.
이 논문은 멀티모달 LLM의 신뢰성을 평가하기 위한 새로운 패러다임을 제시하며, 사실‑인용 정밀도와 재현율을 동시에 최적화하는 메커니즘이 향후 연구의 핵심 과제로 부각될 것임을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기