점진적 다중모달 검색 및 추론: 지식 집약적 시각 질의응답의 새로운 패러다임

점진적 다중모달 검색 및 추론: 지식 집약적 시각 질의응답의 새로운 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

지식 집약적 시각 질의응답(VQA)을 위해 기존 단일 패스 검색-생성(RAG) 방식의 한계를 극복하는 ‘PMSR(Progressive Multimodal Search and Reasoning)’ 프레임워크를 제안한다. PMSR은 최신 추론 기록과 전체 추론 궤적을 모두 고려한 듀얼-스코프 쿼리를 생성해 이질적 지식 베이스로부터 다양한 증거를 검색하고, 이를 구성적 추론을 통해 간결한 ‘추론 기록’으로 합성한다. 이 점진적이고 구조화된 접근 방식은 초기 오류의 전파를 줄이고 안정적인 추론 궤적을 구축하며, 6개 벤치마크에서 검색 재현율과 응답 정확도를 모두 지속적으로 향상시켰다.

상세 분석

PMSR의 기술적 혁신은 크게 세 가지 축에서 분석된다. 첫째, **구조화된 추론 궤적(Structured Reasoning Trajectory)**의 도입이다. 기존 에이전트 방식이 모든 중간 출력을 비정형 역사에 축적함으로써 초기 오류가 후속 단계로 전파되는 ‘드리프트(Drift)’ 문제를 겪은 반면, PMSR은 각 반복에서 검색된 증거를 합성해 생성된 간결한 ‘추론 기록’을 궤적에 순차적으로 추가한다. 이는 과거 정보를 정제된 형태로 유지하며, 오류 전파를 차단하고 추론 상태를 명확하게 표현하는 토대를 마련한다.

둘째, 듀얼-스코프 쿼리(Dual-scope Query) 생성 메커니즘이다. 이는 단일 쿼리에 의존하는 기존 접근법과 차별화된다. ‘기록-수준 쿼리’는 가장 최신의 추론 기록에 기반해 국부적 정교화를 지원하고, ‘궤적-수준 쿼리’는 누적된 전체 궤적을 종합하여 광범위한 추론 의도를 보존한다. 이 두 가지 쿼리는 서로 다른 범위의 지식을 검색하도록 유도하며, 지식 획득의 다양성과 포괄성을 보장한다.

셋째, **이질적 지식 베이스에 대한 구성적 추론(Compositional Reasoning over Heterogeneous KBs)**이다. PMSR은 텍스트 KB와 이미지-텍스트 쌍으로 구성된 다중모달 KB를 동시에 활용한다. 검색 시 텍스트 유사도와 이미지 유사도를 결합한 디커플드 점수 계산 방식을 사용하며, 검색된 다양한 형태의 지식 파편들을 ‘추론 기록 생성’ 단계에서 통합적으로 합성한다. 이는 시각적 근거와 사실적 지식을 조화롭게 통합하는 데 필수적이다.

핵심 통찰은, PMSR이 ‘검색-읽기’의 정적 패러다임이나 ‘역사 축적’에 의존하는 에이전트 패러다임을 넘어, ‘검색-합성-궤적 갱신’의 점진적이고 제어된 순환 구조를 정립했다는 점이다. 이는 복잡한 다중모달 추론 문제에서 지식의 품질을 반복적으로 개선하고, 추론 과정 자체를 안정화시키는 새로운 방법론을 제시한다. 적응적 종료 기준은 이러한 반복 과정의 효율성을 더욱 높인다.


댓글 및 학술 토론

Loading comments...

의견 남기기