언어와 시각을 결합한 RGBT 추적의 새로운 패러다임

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델(MLLM)을 활용해 기존 RGBT 추적 벤치마크에 텍스트 설명을 자동 부착하고, 텍스트‑시각 통합 변환기와 적응형 토큰 융합, 컨텍스트‑인식 추론 모듈을 결합한 RAGTrack 프레임워크를 제안한다. 언어 정보를 통해 외관 변화와 배경 방해를 보완하고, 검색 영역 중복과 모달리티 간 격차를 완화함으로써 네 가지 RGBT 벤치마크에서 최첨단 성능을 달성한다.

상세 분석

RAGTrack은 기존 RGBT 트래커가 초기 프레임의 시각 템플릿에만 의존해 외관 변화를 적절히 포착하지 못한다는 근본적인 한계를 언어 정보로 보완한다는 점에서 혁신적이다. 먼저 저자들은 멀티모달 대형 언어 모델(MLLM)을 이용해 기존 RGB‑Thermal 데이터셋에 자동으로 텍스트 설명을 생성하는 파이프라인을 구축하였다. 이는 추적 대상의 카테고리, 색상, 동작 상태 등을 자연어로 기술함으로써 시각‑언어 정렬 문제를 완화한다.

핵심 모델은 세 부분으로 구성된다. ① Multi‑modal Transformer Encoder(MTE)는 이미지 패치를 토큰화하고 텍스트 토큰과 결합해 통합 시각‑언어 표현을 학습한다. 여기서 텍스트 프리픽스(Eₜ)는 “A sequence of a

언어와 시각을 결합한 RGBT 추적의 새로운 패러다임

초록

상세 분석

댓글 및 학술 토론

의견 남기기