불확실성 기반 동적 깊이 조절 트랜스포머 추적기
초록
본 논문은 트랜스포머 기반 단일 객체 추적기(STARK)의 고정 깊이 연산을 동적으로 조절하는 방법을 제안한다. 추적 결과의 코너 히트맵에서 추출한 불확실성 점수를 이용해 다음 프레임에 사용할 인코더·디코더 레이어 수를 선택하고, 랜덤 깊이 학습과 지식 증류를 통해 중간 깊이에서도 정확성을 유지하도록 미세조정한다. 실험 결과, GOT‑10k와 LaSOT에서 연산량을 최대 12 % 감소시키면서 정확도 손실을 0.2 % 이하로 억제한다.
상세 분석
UncL‑STARK는 기존 STARK 구조를 그대로 보존하면서, 인코더와 디코더의 각 레이어를 선택적으로 실행할 수 있도록 설계하였다. 핵심 아이디어는 두 단계에 있다. 첫째, 학습 단계에서 ‘랜덤 깊이’ 전략을 적용해 전체 깊이(N_enc, N_dec)와 임의의 얕은 깊이(E_S, D_S)를 동시에 통과시킨 뒤, 완전 깊이 모델(teacher)의 출력을 손실 함수에 포함하는 지식 증류(KD)를 수행한다. 이를 통해 얕은 서브네트워크가 깊은 네트워크와 동일한 특징 표현을 학습하도록 강제함으로써, 어느 깊이에서든 예측 정확도를 유지한다. 둘째, 추적 시에는 코너 히트맵을 소프트맥스 정규화하고 상위 k개의 확률 질량을 평균해 스칼라 ‘불확실성 점수(C)’를 계산한다. C가 높을수록 히트맵이 집중되어 있어 높은 신뢰도를 의미하고, 낮을수록 분산되어 있어 추가 연산이 필요함을 나타낸다. 이 점수는 사전에 정의된 두 개의 임계값(τ_high, τ_low)과 매핑되어, 다음 프레임에 적용할 (E_{t+1}, D_{t+1}) 깊이 조합을 결정한다. 즉, 쉬운 프레임에서는 얕은(예: 1,1) 구성을, 어려운 프레임에서는 깊은(예: 5,5) 구성을 선택한다. 이러한 피드백 루프는 영상의 시간적 연속성을 활용해, 복잡한 장면에서만 연산을 집중시키고, 정적인 구간에서는 불필요한 레이어 실행을 생략한다. 실험에서는 깊이 3,3 구성이 전체 깊이 대비 약 12 % GFLOPs 절감과 8.9 % 지연 감소를 달성하면서, 평균 IoU는 0.7333으로 전체 깊이와 0.2 % 차이만 보였다. 또한, 다양한 데이터셋과 시퀀스 길이에 걸쳐 일관된 효율‑정확도 트레이드오프를 보여, 실제 모바일·임베디드 환경에서도 적용 가능함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기