시각 프롬프트를 이용한 객체 추적 성능 향상
초록
PiVOT은 사전학습된 CLIP과 DINOv2 기반 백본을 활용해 온라인으로 시각 프롬프트를 자동 생성·정제한다. 초기 프롬프트는 현재 프레임과 레퍼런스 템플릿 간의 상관점수를 기반으로 생성되며, CLIP의 제로샷 대비 능력으로 후보 영역의 유사도를 평가해 프롬프트를 강화한다. 강화된 프롬프트는 Relation Modeling 모듈을 통해 특징 맵을 조정하고, 궁극적으로 디스 트랙터가 배경 잡음을 억제하며 목표 객체를 더 정확히 추적한다.
상세 분석
PiVOT은 기존 DCF‑기반 트래킹 파이프라인에 “시각 프롬프트”라는 새로운 중간 표현을 도입함으로써, 목표 객체와 주변 방해 객체 사이의 대비를 명시적으로 강화한다. 핵심 구성 요소는 Prompt Generation Network(PGN), Relation Modeling(RM) 모듈, 그리고 Test‑time Prompt Refinement(TPR)이다.
-
Prompt Generation Network: PGN은 현재 프레임과 레퍼런스 템플릿(초기 템플릿과 이전 프레임에서 추출된 템플릿) 사이의 특징 상관을 계산해 스코어 맵을 만든다. 이 스코어 맵은 잠재적인 목표 위치를 강조하는 초기 시각 프롬프트 역할을 한다. 기존 트래커가 단순히 템플릿‑검색 방식으로 유사도를 측정하는 데 비해, PGN은 다중 레퍼런스를 활용해 보다 풍부한 후보 영역을 제시한다.
-
CLIP 기반 프롬프트 정제: 테스트 단계에서 TPR이 삽입되어, 현재 프레임에서 후보 RoI들을 추출하고 CLIP 이미지 인코더로 특징을 얻는다. CLIP은 400M 이미지‑텍스트 쌍으로 학습된 대규모 대비 모델로, 클래스‑레벨 지식을 보유하지만 이미지‑이미지 유사도 평가에서도 강력하다. PiVOT은 각 RoI와 레퍼런스 템플릿 사이의 코사인 유사도를 계산해, 높은 유사도를 보이는 영역에 스코어를 재가중한다. 이 과정은 인간이 직접 프롬프트를 라벨링할 필요 없이 자동으로 진행되며, 특히 훈련에 등장하지 않은 ‘보지 못한’ 객체에 대해서도 제로샷 대비 능력을 발휘한다.
-
Relation Modeling: 정제된 시각 프롬프트는 RM 모듈에 입력되어 현재 프레임의 특징 맵과 결합된다. RM은 프롬프트를 가중치 마스크처럼 활용해, 프롬프트가 강조된 위치의 피처 응답을 강화하고, 프롬프트와 일치하지 않는 배경 영역의 응답을 억제한다. 이는 기존 DCF‑기반 필터가 학습된 가중치만으로 잡음에 취약했던 문제를 보완한다.
-
백본 및 어댑터 설계: PiVOT은 DINOv2‑기반 ViT‑L을 고정(frozen)하고, 1 M 파라미터 규모의 경량 어댑터만 학습한다. 이는 전체 백본을 미세조정하는 비용을 크게 절감하면서도, 대규모 비전 파운데이션 모델이 제공하는 풍부한 일반화 특성을 그대로 활용한다. 실험 결과, 어댑터만 학습해도 기존 전체 미세조정 방식과 동등하거나 더 나은 성능을 달성한다.
-
성능 및 일반화: 다중 벤치마크(TNL2K, LaSOT, GOT‑10k 등)에서 PiVOT은 동일한 베이스 트래커(ToMP)를 사용한 경우 대비 평균 2~4% AP/EAO 향상을 기록한다. 특히 복잡한 배경, 급격한 외관 변화, 부분 가림 상황에서 프롬프트가 제공하는 대비 정보가 트래커의 안정성을 크게 높인다.
-
한계와 향후 과제: 현재 PiVOT은 RGB 영상만을 사용하고, 프롬프트 정제 단계가 CLIP 인퍼런스를 추가로 요구한다는 점에서 실시간성에 제한이 있다. 또한, 프롬프트가 후보 RoI에 크게 의존하므로, 초기 후보 생성이 실패하면 정제 효과가 감소한다. 향후 경량화된 대비 모델이나 멀티모달(텍스트‑이미지) 프롬프트를 결합하면 더욱 강건한 추적이 가능할 것으로 기대된다.
종합하면, PiVOT은 “시각 프롬프트 → 대비 강화 → 특징 억제/강조”라는 흐름을 통해 기존 트래커가 갖는 디스 트랙터 한계를 효과적으로 보완한다. 파운데이션 모델을 트래킹 파이프라인에 비침투적으로 삽입함으로써, 대규모 사전학습 지식을 온라인 추적에 직접 활용하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기