경량형 RGB‑T 트래킹을 위한 모바일 비전 트랜스포머
초록
본 논문은 모바일 비전 트랜스포머(MobileViT)를 기반으로 한 경량 RGB‑T(가시광‑열) 트래커를 제안한다. 분리형 혼합 어텐션(separable mixed attention)을 이용해 각 모달리티 내에서 템플릿‑검색 상호작용을 수행하고, 깊은 레이어에서 RGB와 열 영상 간의 교차‑모달 융합을 진행한다. 파라미터 수는 4 M 이하이며, CPU 25.7 FPS, GPU 122 FPS라는 실시간 성능을 달성한다. 라스헐(LasHeR), RGBT234, GTO‑T 등 세 가지 벤치마크에서 경쟁력 있는 정확도를 보이며, 기존 경량 멀티모달 트래커 대비 파라미터와 연산량이 크게 감소한다.
상세 분석
이 연구는 현재 비전 트랜스포머 기반 멀티모달 트래커가 높은 정확도를 제공하지만, 파라미터 수와 연산 복잡도가 실시간 적용을 방해한다는 문제점을 정확히 짚어낸다. 저자는 MobileViT‑v2의 구조적 장점을 그대로 유지하면서, RGB와 열(IR) 두 모달리티를 동시에 처리할 수 있는 mmMobileViT 백본을 설계한다. 핵심 아이디어는 ‘분리형 혼합 어텐션(separable mixed attention)’을 두 단계에 적용하는 것이다. 첫 번째 단계(Layer 3)에서는 각 모달리티별로 템플릿‑검색 토큰을 결합해 intra‑modal 어텐션을 수행한다. 이때 토큰 수 N은 패치 크기 p₁에 의해 제한되며, 선형 복잡도 O(N·d)로 효율적인 전역 관계 모델링이 가능하다. 두 번째 단계(Layer 4)에서는 RGB와 IR 토큰을 하나의 시퀀스로 연결해 inter‑modal 어텐션을 수행한다. 이렇게 단계적 융합을 채택함으로써 모달리티 고유의 특성을 초기 단계에서 보존하고, 깊은 레이어에서 의미 있는 교차 정보를 추출한다는 설계 철학이 검증된다.
또한, 템플릿‑검색 간의 피처 매칭을 위해 픽셀‑와이즈 교차상관(PW‑XCorr) 네크를 사용하고, 최종 융합 단계에서는 채널‑별 가중치 σ(W_RGB)·F_RGB + σ(W_IR)·F_IR 로 두 모달리티의 피처를 가중합한다. 이 가중치는 학습 가능한 파라미터이며, 각 모달리티의 기여도를 동적으로 조절한다. 예측 헤드는 기존 SMA‑T
댓글 및 학술 토론
Loading comments...
의견 남기기