SMTrack: 상태 인식 Mamba 기반 장기 시계열 추적기
초록
SMTrack은 상태공간 모델인 Mamba를 확장한 선택적 상태‑인식 공간 모델(SASM)을 도입해, 템플릿과 검색 영역 사이의 장기 시계열 의존성을 선형 복잡도로 학습·추론한다. 템플릿을 반복 스캔하지 않아도 숨겨진 상태 전파만으로 과거 프레임과 상호작용하므로 연산량이 크게 감소하고, 다양한 시계열 단서를 포착해 동적 환경에서도 강인한 추적 성능을 달성한다.
상세 분석
본 논문은 비디오 추적에서 장기 시계열 정보를 효율적으로 활용하기 위한 새로운 패러다임을 제시한다. 기존 CNN 기반 방법은 온라인 필터 최적화에 의존해 복잡한 파이프라인을 요구하고, Transformer 기반 방법은 템플릿을 직접 concatenate하면서 발생하는 O(L²) 복잡도로 인해 템플릿 수를 늘리기 어려웠다. 이러한 한계를 극복하기 위해 저자는 연속 시스템 이론에 기반한 State Space Model(SSM)을 차용했으며, 특히 최근 NLP 분야에서 주목받는 Mamba 구조를 시각 추적에 적용한다. Mamba는 입력‑드리븐 선택 메커니즘을 통해 시퀀스 길이에 선형적인 연산 복잡도를 유지하면서 전역 상호작용을 가능하게 한다. 그러나 기존 Mamba는 모든 hidden state에 동일한 timescale 파라미터 Δ를 공유하므로, 서로 다른 시계열 단서(예: 타깃, 배경, 방해물)를 구분해 학습하기에 제한적이다. 이를 보완하기 위해 논문은 State‑wise timescale을 도입한 Selective State‑Aware Space Model(SASM)을 설계하였다. SASM에서는 Δ가 hidden state 차원마다 독립적으로 할당되어, 각 상태가 서로 다른 시간 스케일을 학습하고, 결과적으로 다양한 시계열 특징을 별도로 강조하거나 억제할 수 있다. 또한, SASM은 hidden state 간의 상호작용을 추가함으로써, 각 프레임의 특징이 다른 상태와 교차 연결되어 밀집된 의존성을 형성한다.
시간적 인과성을 유지하기 위해 저자는 “Temporal Causal Scanning”이라는 학습 전략을 도입한다. 학습 단계에서는 과거 템플릿을 순차적으로 스캔하면서 hidden state를 업데이트하고, 검색 영역은 현재 프레임의 입력과 결합해 바로 예측을 수행한다. 이때 템플릿은 한 번만 스캔되며, 이후 추적 단계에서는 템플릿을 다시 스캔할 필요 없이 업데이트된 hidden state만을 이용해 과거 정보를 전달한다. 따라서 추론 시 복잡도는 O(T) (T는 프레임 수)이며, 기존 bidirectional 스캔 방식에서 발생하던 템플릿‑검색 영역 반복 연산을 완전히 제거한다.
실험 결과는 OTB, LaSOT, TrackingNet 등 주요 벤치마크에서 SMTrack이 기존 SSM 기반 방법(MambaVT) 및 최신 CNN/Transformer 기반 트래커보다 높은 성공률(AUC)과 정밀도(F‑score)를 기록함을 보여준다. 특히 연산량 측면에서 FLOPs와 실시간 처리 속도(RT)에서 현저히 우수하여, 경량화된 임베디드 시스템에서도 적용 가능함을 입증한다.
요약하면, SMTrack은 (1) state‑wise timescale을 통한 다중 시계열 단서 포착, (2) 선형 복잡도의 temporal causal scanning으로 효율적인 학습·추론 파이프라인, (3) hidden state 전파만으로 템플릿‑검색 영역 간 장기 의존성 구현이라는 세 가지 핵심 혁신을 제공한다. 이러한 설계는 추적 정확도와 연산 효율성 사이의 트레이드오프를 크게 완화시켜, 동적 환경에서 실시간 추적이 요구되는 실제 응용에 적합한 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기