다중 에이전트 협업 기반 영상 객체 분할을 위한 Refer‑Agent

다중 에이전트 협업 기반 영상 객체 분할을 위한 Refer‑Agent
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Refer‑Agent는 텍스트 질의에 따라 비디오에서 객체를 분할하는 RVOS 과제를, 대규모 사전 학습 모델을 미세조정 없이 활용하는 다중 에이전트 시스템으로 해결한다. 프레임 선택, 의도 분석, 객체 그라운딩, 마스크 생성의 4단계 순차적 추론 파이프라인에 ‘Coarse‑to‑Fine’ 프레임 선택, ‘Dynamic Focus Layout’, 그리고 ‘Chain‑of‑Reflection’(질문‑응답 기반 자기반성) 메커니즘을 결합해 오류 누적을 방지하고 정확도를 크게 높였다. 5개 벤치마크에서 기존 SFT 기반·제로샷 모델을 모두 앞섰으며, 새로운 MLLM을 추가 학습 없이 바로 적용할 수 있다.

상세 분석

본 논문은 RVOS(Referring Video Object Segmentation) 문제를 “추론‑반성” 루프를 갖는 협업형 멀티‑에이전트 구조로 재구성한다. 첫 단계인 프레임 선택에서는 CLIP 기반 텍스트‑시각 유사도(S_CLIP)를 이용해 전체 비디오에서 N개의 후보 프레임을 대략적으로 골라낸 뒤, 이를 MLLM에 입력해 텍스트와의 정합성을 평가한다. 두 점수를 가중합(α·S_CLIP+β·S_MLLM)해 최종 K개의 핵심 프레임을 선정하는데, 이는 기존 단일‑패스 샘플링보다 프레임 다양성과 질의 연관성을 동시에 확보한다는 점에서 의미가 크다.

다음 의도 분석 단계에서는 ‘Dynamic Focus Layout’이라는 시각적 레이아웃 전략을 도입한다. 핵심 프레임을 고해상도 블록으로, 나머지 컨텍스트 프레임을 저해상도 슬롯에 배치해 MLLM가 핵심 프레임에 집중하면서도 시간적 맥락을 놓치지 않도록 설계했다. 이 레이아웃은 키프레임 인덱스에 따라 자동으로 변형되며, 프레임 수가 짝·홀수일 때 균형 잡힌 그리드 구성을 유지한다.

의도 분석 결과로 얻어진 객체 설명(예: “파란 셔츠를 입은 남자”)은 MLLM 기반 이미지 그라운딩 모듈에 전달되어 바운딩 박스로 변환된다. 이 바운딩 박스와 키프레임은 최신 비디오 세그멘테이션 모델인 SAM2에 프롬프트로 제공되어 정밀 마스크를 생성하고, 시간 축을 따라 전파한다.

핵심 혁신은 ‘Chain‑of‑Reflection(CoR)’ 메커니즘이다. 질문자‑응답자(Q‑R) 쌍이 두 단계(Existence Reflection, Consistency Reflection)로 구성된 자기반성 체인을 형성한다. 첫 단계에서는 “예측된 객체가 실제 존재하는가?”를 묻고, 응답을 통해 누락·오탐을 식별한다. 두 번째 단계에서는 “예측된 설명이 질의와 일관되는가?”를 검증해 의미적 불일치를 찾아낸다. 반성 결과는 피드백으로 전환돼 다음 라운드의 프레임 선택·의도 분석에 재투입되며, 최대 반복 횟수에 도달하거나 두 단계 모두 통과될 때까지 진행된다. 이 과정은 MLLM의 환각(hallucination) 문제를 효과적으로 억제하고, 단계별 오류 누적을 방지한다.

실험에서는 Ref‑YouTube‑VOS, A2D‑Sentences, JHMDB‑Sentences 등 5개 데이터셋에서 mIoU와 oIoU 기준으로 기존 SFT 기반 모델(예: GLUS, RGA3)과 제로샷 모델(AL‑Ref‑SAM2, CoT‑RVS)을 모두 능가했다. 특히, 사전 학습된 GPT‑4·Claude·LLaVA 등 최신 MLLM을 교체해도 추가 파인튜닝 없이 바로 적용 가능함을 보였으며, 이는 모델 생태계의 빠른 진화에 대응하는 실용적 장점을 제공한다.

요약하면, Refer‑Agent는 (1) 텍스트‑시각 정합성을 다중 스케일로 평가하는 Coarse‑to‑Fine 프레임 선택, (2) 핵심 프레임에 집중하면서도 시간적 컨텍스트를 유지하는 Dynamic Focus Layout, (3) 질문‑응답 기반 자기반성으로 MLLM의 오류를 교정하는 Chain‑of‑Reflection이라는 세 가지 핵심 기술을 결합해, 파인튜닝 없이도 최첨단 RVOS 성능을 달성한 혁신적인 시스템이다.


댓글 및 학술 토론

Loading comments...

의견 남기기