멀티에이전트 기반 장시간 영상 질문응답 마스터 그라운딩 비전 협업 프레임워크

읽는 시간: 3 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.20618
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

최근 멀티모달 대형언어모델(LLM)과 도구 활용 장시간 영상 QA 시스템의 발전은 시간당 수십 분에서 수시간에 이르는 에피소드를 추론할 가능성을 보여준다. 하지만 기존 방법들은 내용 압축을 통한 손실 요약에 의존하거나 제한된 도구 집합만을 사용해 시간적 근거를 약화시키고 세밀한 단서를 놓친다. 본 연구는 마스터 LLM이 질문 관련 구간을 찾는 그라운딩 에이전트와 텍스트 관찰을 추출하는 비전 에이전트를 조정하는 다중 에이전트 프레임워크를 제안한다. 마스터 에이전트는 단계 제한 하에 계획을 수립하고, 강화학습으로 간결하고 정확하며 효율적인 협업을 학습한다. 이 설계는 마스터가 그라운딩을 통해 관련 클립에 집중하도록 돕고, 자막에 시각적 세부 정보를 보완하며, 해석 가능한 추론 경로를 제공한다. 제안한 LongTVQA 및 LongTVQA+ 데이터셋(TVQA/TVQA+ 기반 에피소드 수준)에서 다중 에이전트 시스템은 강력한 비에이전트 베이스라인을 크게 능가한다. 실험 결과 강화학습이 학습된 에이전트의 추론 및 계획 능력을 더욱 강화함을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

이 논문은 장시간 영상, 특히 텔레비전 에피소드와 같이 복잡하고 연속적인 스토리를 이해하고 질문에 답하는 문제에 초점을 맞춘다. 기존의 장시간 비디오 QA 연구는 주로 전체 영상을 압축해 요약본을 만들거나, 자막과 같은 텍스트 기반 정보에만 의존한다. 이러한 접근법은 시간적 정밀도와 시각적 디테일을 손실시키며, 질문이 특정 장면이나 물체, 행동에 직접적으로 연결될 때 정확도가 급격히 떨어진다. 제안된 프레임워크는 세 개의 역할을 분리한다. 첫 번째는 ‘마스터’ LLM으로, 질문을 해석하고 전체적인 추론 플랜을 설계한다. 두 번째는 ‘그라운딩’ 에이전트로, 질문과 연관된 시간 구간을 영상에서 정확히 찾아낸다. 세 번째는 ‘비전’ 에이전트로, 해당 구간에서 시각적 정보를 텍스트 형태(예: 객체 라벨, 행동 설명)로 변환한다. 이 구조는 마스터가 초기에 전체 영상에 대한 부담을 줄이고, 그라운딩 에이전트가 제공하는 시간적 힌트를 통해 필요한 부분만 집중하도록 만든다. 또한, 마스터 에이전트는 ‘단계 제한(step limit)’을 두어 무한정 탐색하지 못하게 함으로써 효율성을 강제한다. 강화학습(RL) 보상 설계는 (1) 정답률, (2) 답변 길이의 간결성, (3) 사용된 단계 수의 최소화를 동시에 최적화한다. 이를 통해 에이전트들은 “짧고 정확한” 협업 전략을 스스로 학습한다. 데이터 측면에서 저자들은 TVQA와 TVQA+를 기반으로 LongTVQA와 LongTVQA+라는 새로운 에피소드‑레벨 데이터셋을 구축했다. 기존 데이터셋은 클립 단위(10~30초)였으나, 새 데이터셋은 전체 에피소드를 대상으로 하여 시간적 연속성, 복수 인물 간 상호작용, 시각적 변화를 포괄한다. 실험 결과, 다중 에이전트 시스템은 비에이전트 기반의 최신 멀티모달 LLM 및 비디오 QA 모델들을 크게 앞선 성능을 보였으며, 특히 시각적 디테일이 중요한 질문에서 눈에 띄는 개선을 기록했다. 강화학습을 적용한 모델은 동일 구조의 지도학습 모델에 비해 추론 단계 수를 평균 20% 감소시키면서도 정확도는 3~5% 상승했다. 이 연구는 “멀티에이전트 협업”이라는 새로운 패러다임을 제시함으로써, 장시간 영상 이해에 필요한 시간적 근거와 시각적 세부 정보를 동시에 활용할 수 있음을 입증한다. 향후 연구에서는 더 풍부한 도구(예: OCR, 음성 인식)와 인간‑에이전트 인터랙션을 결합해, 실제 방송 콘텐츠 분석, 교육용 비디오 요약, 법률 증거 검토 등 다양한 응용 분야로 확장할 가능성이 있다.

📄 논문 본문 발췌 (Translation)

최근 멀티모달 대형언어모델(LLM)과 도구 활용 장시간 비디오 질문응답 시스템의 발전은 시간당 수십 분에서 수시간에 이르는 에피소드를 추론할 수 있는 가능성을 보여준다. 그러나 많은 기존 방법은 내용을 손실이 발생하는 요약으로 압축하거나 제한된 도구 집합에만 의존하여 시간적 근거를 약화시키고 세밀한 단서를 놓친다. 본 연구에서는 마스터 LLM이 질문에 관련된 구간을 지역화하는 그라운딩 에이전트와 목표 텍스트 관찰을 추출하는 비전 에이전트를 조정하는 다중 에이전트 프레임워크를 제안한다. 마스터 에이전트는 단계 제한(step limit) 하에 계획을 수립하고, 강화학습을 통해 간결하고 정확하며 효율적인 다중 에이전트 협업을 장려하도록 학습된다. 이러한 설계는 마스터 에이전트가 그라운딩을 통해 관련 클립에 집중하도록 돕고, 자막을 시각적 세부 정보와 보완하며, 해석 가능한 추론 경로를 제공한다. 본 논문에서 제안한 LongTVQA 및 LongTVQA+는 TVQA/TVQA+를 기반으로 에피소드 수준으로 집계한 데이터셋이며, 다중 에이전트 시스템은 강력한 비에이전트 베이스라인을 크게 능가한다. 실험 결과 강화학습이 학습된 에이전트의 추론 및 계획 능력을 더욱 강화함을 확인하였다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키