텍스트 기반 오디오‑비주얼 세그멘테이션 프레임워크 TAViS

텍스트 기반 오디오‑비주얼 세그멘테이션 프레임워크 TAViS
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TAViS는 멀티모달 기초 모델인 ImageBind와 SAM2를 결합하고, 텍스트를 중간 매개체로 활용해 오디오와 비주얼 특징을 정밀하게 정렬한다. 텍스트‑브릿지 하이브리드 프롬프트와 텍스트‑브릿지 정렬 손실을 도입해 클래스 프로토타입 정보를 제공하면서도 각 모달리티의 세부 정보를 보존한다. 이 설계는 기존 단일모달 기반 방법보다 뛰어난 성능을 보이며, 제로샷 설정에서도 강력한 일반화 능력을 입증한다.

상세 분석

본 논문은 오디오‑비주얼 세그멘테이션(AVS) 분야에서 가장 큰 난제인 두 모달리티 간의 의미적 정렬 문제를 해결하기 위해 두 가지 최신 기초 모델을 전략적으로 결합한다. 첫 번째는 다중모달 정렬에 강점을 가진 ImageBind이며, 두 번째는 복잡한 이미지·비디오 영역을 고정밀로 분할하는 SAM2이다. 두 모델은 구조적으로 서로 다른 임베딩 공간을 사용하므로 직접적인 지식 전이에는 한계가 있다. 이를 극복하기 위해 저자는 텍스트를 “브릿지” 역할로 삼아, (1) 텍스트‑브릿지 하이브리드 프롬프트 메커니즘과 (2) 텍스트‑브릿지 정렬 감독(loss)이라는 두 축을 설계하였다.

  1. 텍스트‑브릿지 하이브리드 프롬프트
    • Sparse Prompt: Audio‑Text 듀얼 프롬프트를 구성한다. Audio 쿼리는 ImageBind의 오디오 트렁크 피처와 cls 토큰을 기반으로 MLP를 통해 변환하고, 변환된 토큰을 Text Encoder에 입력해 ‘pseudo‑text’ 임베딩(p_t)을 만든다. 동시에, 오디오 전용 프롬프트(p_a)도 MLP로 생성해 두 임베딩을 다시 MLP로 결합해 최종 sparse 프롬프트(p)를 만든다. 이 과정에서 텍스트는 클래스 프로토타입(예: “A

댓글 및 학술 토론

Loading comments...

의견 남기기