빠른 물체 추적의 한계, SAM2 기반 추적기는 FMOX에서 얼마나 버틸까
초록
본 연구는 빠르게 움직이는 물체(Fast Moving Object, FMO) 추적에 특화된 FMOX 데이터셋을 활용해 SAM2 기반의 4가지 최신 객체 추적기(SAM2, EfficientTAM, DAM4SAM, SAMURAI)의 성능을 벤치마킹했다. 결과적으로 방해 요소 인식 메모리 전략을 사용한 DAM4SAM과 동적 메모리 관리를 적용한 SAMURAI가 특히 어려운 시퀀스에서 더 우수한 성능을 보였으며, 효율성에 초점을 맞춘 EfficientTAM은 상대적으로 낮은 성능을 기록했다.
상세 분석
본 논문의 기술적 분석과 핵심 통찰은 다음과 같다. 첫째, 평가 환경 설정의 중요성을 확인할 수 있다. 모든 추적기는 첫 프레임의 Ground Truth 바운딩 박스로 초기화되었으며, mIoU와 Dice Score라는 표준화된 메트릭을 사용해 공정한 비교를 시도했다. 이는 기존 FMO 특화 평가 지표(TIoU)보다 일반적인 추적 연구와의 비교를 가능하게 한다.
둘째, 각 추적기의 설계 철학이 FMO라는 특정 도전 과제에 어떻게 반응하는지 명확히 보여준다. 우수한 성능을 기록한 DAM4SAM은 SAM2의 고정된 FIFO 메모리 관리 방식을 버리고, ‘최근 외관 메모리(RAM)‘와 ‘방해 요소 해결 메모리(DRM)‘로 구성된 ‘방해 요소 인식 메모리(DAM)’ 전략을 도입했다. 이를 통해 표적 객체와 유사한 외부 방해 요소가 등장하는 상황에서의 추적 실패를 줄인 것으로 분석된다. SAMURAI는 칼만 필터 기반의 모션 모델링을 도입해 객체의 빠른 움직임을 예측하고, ‘모션 인식 인스턴스 수준 메모리’ 전략으로 신뢰도 높은 프레임만 동적으로 선별해 메모리를 업데이트한다. 이는 연속 프레임 간 바운딩 박스 중첩이 거의 없는 FMOv2나 TbD 데이터셋에서 효과를 발휘한 것으로 보인다.
셋째, 효율성과 성능의 트레이드오프를 확인할 수 있다. EfficientTAM은 경량화된 ViT 인코더와 중복 토큰 통합 전략으로 SAM2의 높은 계산 복잡도를 줄이는 데 초점을 맞췄다. 그러나 이로 인해 특징 표현의 정밀도가 희생되며, 특히 작고 빠르게 움직여 선명한 특징을 추출하기 어려운 FMO 시나리오에서 두드러진 성능 저하를 보였다. 이는 추적기 설계 시 목표 용도(실시간 효율성 vs. 극한 조건 정확도)에 대한 명확한 타협점이 필요함을 시사한다.
마지막으로, 데이터셋의 구성이 평가 결과 해석에 미치는 영향을 강조한다. FMOX는 객체 크기(매우 작음~큼)와 연속 프레임 간 바운딩 박스 중첩율(IoU)이 다양한 데이터셋의 집합체이다. 분석 결과, 객체가 작고 프레임 간 변위가 커 중첩이 거의 없는 FMOv2와 TbD 데이터셋에서 모든 추적기의 성능이 전반적으로 하락하며, 특히 최소 점수(0)가 빈번히 관찰되었다. 이는 현재 SAM2 기반 추적기의 한계가 ‘빠른 운동’ 자체보다 ‘작은 크기’와 ‘극단적인 변위’가 결합된 시나리오에 더 취약할 수 있음을 시사하는 흥미로운 통찰이다.
댓글 및 학술 토론
Loading comments...
의견 남기기