공동모달 기반 시각 문서 검색·질문응답 프레임워크 CMRAG

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CMRAG는 텍스트와 이미지를 동시에 활용해 시각 문서의 검색과 생성 성능을 크게 향상시키는 RAG(Retrieval‑Augmented Generation) 시스템이다. 핵심은 질의·텍스트·이미지를 하나의 임베딩 공간에 매핑하는 Unified Encoding Model(UEM)과, 서로 다른 스코어 분포를 정규화해 효과적으로 결합하는 Unified Co‑Modality‑informed Retrieval(UCMR)이다. 대규모 (질의, 텍스트, 이미지) 삼중 데이터셋을 공개하고, 여러 VDQA 벤치마크에서 단일 모달 기반 방법들을 지속적으로 앞선다.

상세 분석

CMRAG는 기존 시각 문서 질문응답(RAG) 연구가 겪는 두 가지 주요 한계를 동시에 해결한다. 첫 번째는 레이아웃 분석 후 OCR 기반 텍스트만 이용해 이미지·표와 같은 비정형 정보를 무시하는 접근법이며, 두 번째는 문서를 전체 이미지로 처리해 텍스트의 풍부한 의미 정보를 손실시키는 비전‑언어 모델(VLM) 기반 방법이다. 이를 극복하기 위해 저자들은 ‘공동모달(co‑modality)’ 개념을 도입, 텍스트와 이미지를 동등하게 취급하면서도 각 모달리티의 장점을 보존하는 통합 파이프라인을 설계했다.

Unified Encoding Model(UEM)은 SigLIP 백본을 기반으로 질의 인코더(E_q), 이미지 인코더(E_I), 텍스트 인코더(E_T)를 하나의 아키텍처에 결합한다. E_q와 E_I는 사전 학습된 가중치를 그대로 사용해 이미지‑텍스트 정렬 능력을 유지하고, E_T는 E_q를 길이 확장한 형태로 초기화해 긴 문서 텍스트에도 대응한다. 학습 단계에서는 Dual‑Sigmoid Alignment(DSA) 손실을 적용한다. DSA는 질의‑텍스트, 질의‑이미지 쌍 각각에 대해 시그모이드 기반 대조 손실을 계산하고, λ 파라미터로 두 손실의 비중을 조절한다. 중요한 점은 E_T만 업데이트하고 E_q·E_I는 고정함으로써 기존 멀티모달 정렬을 보존하면서 텍스트 전용 표현을 최적화한다는 것이다.

검색 단계에서는 질의 임베딩 q와 사전 인덱싱된 이미지 임베딩 I_i, 텍스트 임베딩 T_i 사이의 내적을 구해 각각 z_Ii, z_Ti를 얻는다. 단순 가중합(α·z_Ti+(1‑α)·z_Ii) 방식은 스코어 스케일 차이와 분포 차이 때문에 성능 저하를 초래할 수 있다. 이를 해결하기 위해 CMRAG는 시그모이드 정규화 후 Z‑score 표준화를 적용해 두 모달리티의 스코어를 동일한 가우시안 형태로 변환한다. 이후 β 파라미터로 텍스트와 이미지 정규화 스코어를 다시 가중합해 최종 검색 점수 ˜s_i를 산출한다. 이 과정은 분포 차이를 제거해 β가 실제 텍스트 신뢰도를 반영하도록 만든다.

데이터 측면에서 저자들은 공개된 시각 문서 코퍼스를 활용해 (질의, 텍스트, 이미지) 삼중 형태의 대규모 학습·평가 데이터셋을 구축하고 공개하였다. 이는 기존 연구가 텍스트‑이미지 쌍만 제공하거나 라벨이 제한적인 문제를 크게 완화한다.

실험 결과는 MMLongBench, REAL‑MM‑RAG, LongDocURL 등 다양한 VDQA 벤치마크에서 CMRAG가 텍스트‑전용 RAG, 이미지‑전용 RAG, 그리고 최신 멀티모달 RAG 모델들을 모두 앞선다는 점을 보여준다. 특히 텍스트와 이미지가 상호 보완적인 경우(예: 차트 설명, 공식 이미지)에서 성능 격차가 두드러졌다. Ablation study에서는 UEM의 텍스트 인코더를 독립적으로 학습했을 때 성능이 급격히 떨어짐을 확인했으며, UCMR에서 정규화 없이 단순 가중합을 사용했을 때도 동일하게 성능 저하가 발생한다는 점을 입증했다.

계산 비용 분석에 따르면, 오프라인에서 이미지·텍스트 임베딩을 미리 인덱싱하고, 온라인에서는 질의만 한 번 인코딩하면 되므로 기존 단일 모달리티 RAG 대비 추가적인 연산량은 내적 연산 두 배 정도에 불과하다. 현대 GPU에서 병렬 처리 효율이 높아 실시간 서비스에 충분히 적용 가능함을 보였다.

한계점으로는 현재 텍스트 인코더가 질의 인코더와 구조를 공유하면서도 긴 문서에 대한 세밀한 의미 구분이 부족할 수 있다는 점, 그리고 정규화 단계에서 가우시안 가정이 모든 도메인에 일반화되지 않을 가능성이 있다. 향후 연구에서는 더 깊은 텍스트 전처리와 동적 β 조정, 그리고 멀티턴 대화형 질의에 대한 확장을 기대한다.

공동모달 기반 시각 문서 검색·질문응답 프레임워크 CMRAG

초록

상세 분석

댓글 및 학술 토론

의견 남기기