멀티모달 그래프 탐색을 위한 실패 피드백 기반 히스토리 인식 백트래킹
초록
본 논문은 멀티모달 문서 그래프에서 하위 그래프를 찾는 과정을 순차적 의사결정 문제로 정의하고, 실패 경험을 활용한 히스토리‑인식 백트래킹과 비용‑민감형 에이전트 워크플로우를 도입한다. 저비용 벡터 매칭에서 고비용 LLM 추론으로 동적으로 전환함으로써 정확도와 연산 비용을 균형 있게 조절한다. 실험 결과 FiF는 MultimodalQA, MMCoQA, WebQA 벤치마크에서 최첨단 성능을 달성한다.
상세 분석
본 연구는 기존 멀티모달 그래프 기반 검색기가 “단일 유사도 점수에 의존하고 사전 정의된 경로를 고수한다”는 근본적인 한계를 지적한다. 이러한 설계는 (1) 홉마다 요구되는 의미적 차이를 반영하지 못하고, (2) 탐색 도중 발생하는 오류를 즉시 교정하지 못한다는 문제를 야기한다. 저자는 이를 해결하기 위해 두 가지 핵심 메커니즘을 제안한다. 첫째, 히스토리‑인식 백트래킹이다. 전통적 백트래킹은 실패한 상태를 단순히 되돌리는 반면, FiF는 실패 로그(실패한 서브쿼리, 선택한 전략, 경로 정보)를 구조화된 메모리에 저장하고, 이를 기반으로 “재앙점(re‑anchor)”을 설정한다. 즉, 이전 실패가 발생한 컨텍스트를 분석해 유사한 오류를 회피하고, 새로운 서브쿼리를 생성하거나 다른 탐색 전략을 선택한다. 둘째, 경제적 합리성을 갖춘 에이전트 워크플로우이다. FiF는 비용‑효율 스펙트럼을 갖는 전략 포트폴리오(경량 벡터 매칭 → 중간 수준의 규칙 기반 필터 → 고비용 LLM 추론)를 유지하고, 현재 홉의 불확실성(예: 낮은 유사도 점수, 다중 후보 존재)이나 이전 실패 기록에 따라 자동으로 상위 전략으로 전이한다. 이 과정은 MDP(유한 수평 정보‑상태 마코프 결정 과정)로 공식화되어, 상태(state)는 현재까지 축적된 증거와 실패 히스토리를 포함하는 구조화된 메모리이며, 행동(action)은 “TRAVERSE”, “PLAN”, “STOP” 중 하나이다. 보상 함수는 검색 정확도와 연산 비용을 동시에 고려하도록 설계되어, 에이전트는 기대 보상이 최대가 되도록 정책을 학습한다.
기술적으로는 3‑계층 컴포넌트 그래프를 사용한다. 0‑계층은 문서 요약, 1‑계층은 멀티모달 컴포넌트(문단, 표, 이미지), 2‑계층은 세부 서브컴포넌트(문장, 표 행, 시각 객체)로 구성된다. 계층적 “contains” 엣지는 상위‑하위 탐색을 가능하게 하고, 네비게이션 엣지는 하이퍼링크·교차참조 등 문서 간 연결을 제공한다. 기존 LILAC과 달리 문서 요약 노드를 도입해 초기 프루닝을 수행함으로써 탐색 효율을 크게 향상시킨다.
실험에서는 FiF를 기존 최첨단 모델(LILAC, VisRAG 등)과 비교하였다. MultimodalQA, MMCoQA, WebQA 세 데이터셋 모두에서 Top‑1 정확도와 nDCG가 평균 4~7%p 상승했으며, 특히 복잡한 다중 홉 질문에서 비용 대비 성능 비율이 크게 개선되었다. 비용 분석에서는 평균 추론 시간·GPU 메모리 사용량이 경량 전략 사용 비중이 60% 이상 유지되는 동안도 고비용 LLM 호출을 최소화해 전체 비용을 30% 이하로 절감하였다.
요약하면, FiF는 (1) 실패를 피드백으로 전환하는 히스토리‑인식 백트래킹, (2) 비용‑민감형 전략 전이, (3) 정보‑상태 MDP 기반 에이전트 제어라는 세 축을 통해 멀티모달 그래프 탐색의 정확도와 효율성을 동시에 끌어올린 혁신적 프레임워크이다.
댓글 및 학술 토론
Loading comments...
의견 남기기