효율적인 멀티모달 플래닝 에이전트로 시각질문답변 가속화
초록
본 논문은 시각질문답변(VQA)에서 멀티모달 검색‑증강 생성(mRAG) 파이프라인을 동적으로 선택·제어하는 플래닝 에이전트를 학습시켜, 불필요한 검색 과정을 제거하고 60% 이상의 추론 시간을 절감하면서도 기존 최고 성능을 능가하는 방법을 제안한다.
상세 분석
이 연구는 VQA 작업에서 이미지와 텍스트 양쪽의 외부 지식을 활용하는 mRAG 방식이 다단계 파이프라인으로 고정돼 비효율적이라는 문제를 지적한다. 기존 시스템은 이미지 그라운딩, 이미지 검색, 질의 재작성, 텍스트 검색 등 순차적으로 수행되며, 각 단계는 서로 의존성을 갖는다. 따라서 간단한 질문이라도 모든 단계가 실행돼 연산 비용이 급증한다.
논문은 이러한 비효율성을 해소하기 위해 “멀티모달 플래닝 에이전트”를 도입한다. 에이전트는 입력 VQA 쿼리 q = (i, t)를 받아 네 가지 카테고리(c₁~c₄) 중 하나를 예측한다. c₁은 mRAG가 전혀 필요 없을 때, c₂는 텍스트 검색(kₜ)만 필요할 때, c₃은 이미지 검색(kᵢ)만 필요할 때, c₄는 양쪽 모두 필요할 때에 해당한다.
학습 데이터는 기존 VQA 데이터셋(InfoSeek, VQA‑v2, WanWu)에서 자동으로 생성된 세 개의 파생 질의(qᵢ, q_g, aᵢ)를 이용한다. qᵢ는 “이미지에 무엇이 있나요?”와 같은 이미지 전용 질의, q_g는 원본 질문을 보강한 골드 질의이며, aᵢ는 이미지 전용 질의에 대한 정답이다. 대규모 강력한 MLLM(Qwen2.5‑VL‑72B)을 활용해 이 파생 질의를 자동 라벨링한다. 이후 원본 질문과 정답을 이용해 에이전트가 올바른 카테고리를 선택하도록 로스 J(θ)=−∑log Pθ(c|q,T) 를 최소화하며 파인튜닝한다. 여기서 T는 카테고리 예측을 위한 프롬프트이다.
추론 단계에서는 에이전트가 예측한 카테고리에 따라 동적으로 파이프라인을 구성한다. c₁이면 바로 MLLM에 질의를 입력하고, c₂이면 에이전트가 q_g를 재작성하고 텍스트 검색(kₜ)을 수행한 뒤 MLLM에 (q, kₜ)를 제공한다. c₃은 이미지 검색(kᵢ)만 수행하고, c₄는 이미지 검색 후 q_g 재작성, 텍스트 검색을 차례로 진행한다. 이때 q_g는 이미지 검색 결과가 있을 때만 필요하므로, 불필요한 텍스트 검색을 방지한다.
실험은 Life VQA, Private VQA, Dyn‑VQA(중/영), Visual7W, NoCaps, Mix 등 여섯 개 데이터셋에서 수행되었다. 베이스라인으로는 Deep Research 에이전트(WebWatcher)와 프롬프트 기반 OmniSearch가 사용되었다. 결과는 에이전트가 전체 파이프라인을 고정 적용한 경우 대비 평균 60% 이상의 검색 시간 절감을 보였으며, 정확도(LLaMA‑Eval 점수) 역시 모든 베이스라인을 앞섰다. 특히 고비용의 7B/32B 모델 대비 3~4.5배 빠른 응답 속도를 기록했다.
추가 분석에서는 LoRA(랭크 32)와 전통적인 전체 파인튜닝을 비교했으며, LoRA가 메모리·시간 효율성에서 우수함을 확인했다. 카테고리별 사용 비율도 제시했는데, 대부분의 질문이 c₁(검색 불필요) 혹은 c₃(이미지 검색만)으로 분류돼, 텍스트 검색을 최소화함으로써 효율성을 크게 높였다.
한계점으로는 골드 질의 q_g가 추론 시에 외부 정답 없이 생성되어야 하는데, 현재는 별도 프롬프트 기반 재작성 모델에 의존한다는 점이다. 또한, 에이전트 자체가 동일한 MLLM을 사용하므로 모델 규모가 커질수록 추론 비용 자체가 증가할 수 있다. 향후 연구에서는 경량화된 플래닝 모델이나, 더 정교한 의사결정 트리를 도입해 다양한 도구(예: OCR, 객체 탐지)와의 연동을 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기