시너지 멀티에이전트로 장시간 영상 이해 혁신
Symphony는 인간 인지 과정을 모방한 다중 에이전트 시스템으로, 장시간 영상 이해(LVU) 과제를 세분화된 서브태스크와 반사 기반 동적 협업 메커니즘을 통해 해결한다. 전용 grounding 에이전트가 VLM을 활용해 영상‑질문 연관성을 정밀히 평가하고, planning·visual·subtitle 에이전트가 각각 인지·시각·언어 처리를 담당한다. 실험 결과 LVBench 등 4개 데이터셋에서 최첨단 성능을 달성했으며, 특히 LVBench…
저자: Haiyang Yan, Hongyun Zhou, Peng Xu
본 논문은 최근 멀티모달 대형 언어 모델(MLLM)과 대형 언어 모델(LLM) 기반 에이전트가 장시간 영상(LVU) 이해에 직면한 한계를 지적하고, 이를 해결하기 위한 새로운 시스템 ‘Symphony’를 제안한다. LVU는 영상 길이가 수십 분에서 수시간에 이르며, 정보 밀도가 높고 질문이 복합적인 경우가 많아 단일 모델이 전체 시퀀스를 한 번에 처리하기 어렵다. 기존 연구는 (1) 키프레임 선택·토큰 압축을 통한 입력 길이 감소, (2) Retrieval‑Augmented Generation(RAG) 방식으로 질문‑관련 클립을 검색, (3) 작업 분해와 도구 호출을 통한 다단계 추론을 시도했지만, 각각 (i) 장기 시간 의존성 손실, (ii) 노이즈·중복 클립에 의한 검색 정확도 저하, (iii) 모델 용량 초과 시 얕은 추론에 머무르는 문제를 안고 있었다.
이에 저자들은 인간 인지 심리학에서 제시된 ‘지각·주의·추론·언어·결정’ 다섯 가지 핵심 능력을 기능적 차원으로 전이시켜, 각각을 전담하는 전문 에이전트로 구성한 중앙집중형 다중 에이전트 시스템(MAS)을 설계하였다. 시스템의 핵심 구성 요소는 다음과 같다.
1. **Planning Agent** – 전체 작업을 파악하고, 질문(Q)과 현재까지의 추론 궤적(τ)을 입력으로 받아 서브태스크를 생성한다. 서브태스크는 Grounding(G), Visual Perception(V), Subtitle(S) 중 하나이며, 에이전트 간 스케줄링과 결과 통합을 담당한다.
2. **Grounding Agent** – 질문을 LLM으로 의미론적으로 분해하고, VLM(예: CLIP) 혹은 CLIP‑based retrieval을 상황에 맞게 선택한다. 질문 복잡도와 의도에 따라 ‘attention’ 역할을 수행해 영상 내 핵심 구간을 정밀하게 식별한다.
3. **Visual Perception Agent** – 프레임 검사, 전역 요약, 다중 구간 분석 등 세 가지 도구를 호출해 시각 정보를 추출한다. 이는 영상 내 객체·관계·동작을 다차원적으로 파악한다.
4. **Subtitle Agent** – 영상 자막을 분석해 엔티티 인식, 감정 분석, 토픽 모델링 등을 수행한다. 텍스트 기반 단서가 풍부한 질문에 특히 유용하다.
5. **Reflection Agent** – Actor‑Critic 구조를 차용해 현재 추론 궤적을 검증한다. ‘Verifier’s Law’를 근거로, 해결 과정 자체를 검증하는 것이 정답을 생성하는 것보다 쉽다는 점을 활용한다. 검증 결과가 부정적이면 비판(C)을 생성하고, Planning Agent에게 피드백을 제공해 새로운 추론 라운드를 시작한다.
알고리즘 1은 전체 흐름을 정형화한다. 초기 질문 Q와 최대 시도 횟수 M을 설정하고, Planning Agent가 서브태스크를 순차적으로 할당한다. 각 서브태스크 실행 후 관찰(o_t)을 궤적 τ에 누적하고, Reflection Agent가 τ를 평가한다. 검증이 통과하면 최종 답변을 반환하고, 그렇지 않으면 비판을 추가해 재시도한다. 이 과정은 ‘전방 추론 → 검증 → 재추론’의 순환을 통해 증거를 충분히 축적하고 논리적 일관성을 확보한다.
**Grounding Agent의 세부 설계**는 두 단계로 이루어진다. 첫 번째 단계에서 LLM이 질문을 ‘의도·핵심 키워드·시간적 요구사항’으로 분해한다. 두 번째 단계에서 VLM이 영상 전체를 스캔해 각 구간에 대한 의미론적 연관 점수를 산출한다. 점수가 높은 구간은 이후 Visual/Subtitle 에이전트에게 전달되어 집중 분석 대상이 된다. 이때 VLM은 이미지‑텍스트 매칭 외에도 시간적 연속성을 고려한 스코어링을 적용해 장시간 영상에서도 일관된 관련성을 유지한다.
**실험**에서는 네 개의 공개 LVU 벤치마크(LVBench, LongVideoBench, VideoMME, MLVU)를 사용했다. LVBench은 복합 사건 추론, 인물 관계 파악, 시간 순서 재구성 등 높은 수준의 논리적 요구를 포함한다. Symphony는 LVBench에서 기존 최고 기록 대비 5.0%p(절대값) 향상을 기록했으며, 다른 세 데이터셋에서도 77.1%~81.0%의 정확도를 달성했다.
Ablation Study 결과는 다음과 같다. (a) Reflection Agent를 제거하면 평균 정확도가 3~4%p 감소한다. (b) Grounding Agent를 단순 키프레임 기반으로 교체하면 질문‑답변 일치율이 6%p 이상 떨어진다. (c) 모든 기능 에이전트를 하나의 대형 LLM에 통합하면 연산 비용은 감소하지만, 복합 질문에서의 정확도가 8%p 이상 감소한다. 이는 기능별 전문화와 동적 검증이 성능 향상의 핵심임을 시사한다.
**한계 및 미래 연구**로는 현재 에이전트 간 통신이 텍스트 프롬프트 기반이라 지연이 발생할 수 있다는 점, VLM의 사전 학습 편향이 특정 도메인에서 부정확한 grounding을 초래할 가능성, 그리고 매우 긴 영상(수시간 이상)에서는 전체 비디오를 스캔하는 비용이 여전히 높다는 점을 들었다. 향후 연구에서는 (i) 멀티모달 토큰 교환 프로토콜을 설계해 인터‑에이전트 효율을 높이고, (ii) 도메인‑특화 VLM을 공동 학습시켜 grounding 정확도를 개선하며, (iii) 계층적 비디오 인덱싱 기법을 도입해 초장시간 영상에서도 효율적인 검색을 구현하고자 한다.
결론적으로 Symphony는 인간 인지 구조를 모방한 기능‑분리 설계와 반사‑강화형 동적 협업, VLM 기반 정교한 grounding을 결합해 장시간 영상 이해라는 난제에 대해 현재 최고 수준의 성능을 달성한 다중 에이전트 프레임워크이며, 향후 멀티모달 인공지능 연구에 중요한 방향성을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기