위상 각도 융합을 통한 개선된 객체 추적

읽는 시간: 9 분
...

📝 원문 정보

- Title: Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
- ArXiv ID: 2601.01022
- 발행일: 2026-01-03
- 저자: Shiao Wang, Xiao Wang, Haonan Zhao, Jiarui Xu, Bo Jiang, Lin Zhu, Xin Zhao, Yonghong Tian, Jin Tang

📝 초록

기존의 RGB-이벤트 시각적 객체 추적 접근법은 주로 기존의 피처 레벨 융합에 의존하며, 이는 이벤트 카메라의 고유한 장점을 완전히 활용하지 못합니다. 특히, 이벤트 카메라는 높은 동적인 범위와 움직임에 민감한 특성이 간과되며, 정보가 적은 영역도 일정하게 처리되어 백본 네트워크의 불필요한 계산 부담이 발생합니다. 이러한 문제를 해결하기 위해, 우리의 접근법은 주파수 도메인에서 조기 융합을 수행하는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티로부터 고주파 정보의 효과적인 집약화가 가능해집니다. 구체적으로, RGB와 이벤트 모달리티는 빠른 푸리에 변환을 통해 공간 도메인에서 주파수 도메인으로 변환되며, 그들의 진폭과 위상 성분은 분리됩니다. 고주파 이벤트 정보는 진폭 및 위상 주의를 통한 선택적 융합을 통해 RGB 모달리티에 통합되어 피처 표현을 향상시키고 백본 계산을 크게 줄입니다. 또한, 움직임 가이드 스페이셜 스파시피케이션 모듈은 이벤트 카메라의 움직임 민감성 특성을 활용하여 대상 움직임 큐와 공간 확률 분포 간의 관계를 포착하고, 정보가 적은 영역을 필터링하며 대상 관련 피처를 강화합니다. 마지막으로, 대상 관련 피처 집합이 백본 네트워크에 학습용으로 입력되며 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT 등 널리 사용되는 세 가지 RGB-이벤트 추적 벤치마크 데이터셋에서의 광범위한 실험은 우리의 방법의 높은 성능과 효율성을 입증합니다. 이 논문의 소스 코드는 https://github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.

💡 논문 해설

이 논문의 주요 기여는 다음과 같습니다: 1) 이 연구에서는 고주파 정보를 RGB 이미지와 조기에 통합하는 새로운 진폭과 위상 주의 메커니즘을 제안합니다. 이를 통해 어려운 상황에서의 특징 표현을 강화하고, 백본 네트워크의 계산 부담을 크게 줄일 수 있습니다. 2) 이동 정보를 이용한 공간 희박화 전략을 도입하여 불필요한 배경 정보를 필터링하면서 대상과 관련된 특징 표현을 강화합니다. 3) FE108, FELT 및 COESOT라는 세 가지 공개 데이터셋에서 이루어진 광범위한 실험을 통해 제안된 다중 모달 추적기의 효과를 입증했습니다.

이 연구는 자세하게 설명하면 다음과 같습니다:

  • 이동체 추적은 컴퓨터 비전 분야에서 오랫동안 중요한 연구 주제였습니다. 특히, RGB 카메라가 다양한 실제 환경에서 널리 사용되지만, 빠른 움직임이나 암흑 조건에서는 성능이 저하됩니다.
  • 이를 보완하기 위해 이벤트 카메라는 고동적 범위와 시간 해상도를 갖추고 있어, RGB 카메라가 어려워하는 상황에서도 우수한 성능을 발휘합니다.
  • 본 연구는 이러한 이벤트 카메라의 장점을 활용하여 RGB 모달성을 보강하고, 더 효율적인 RGB-이벤트 추적을 가능하게 합니다.

📄 논문 발췌 (ArXiv Source)

Shell *et al.*: IEEEtran.cls의 베어 데모를 위한 IEEE 저널

이벤트 카메라; RGB-이벤트 추적; 주파수 융합; 공간 희박화; 비전 트랜스포머

서론

물체 추적(VOT)은 오랫동안 컴퓨터 비전 분야의 중요한 연구 방향으로 자리잡아 왔습니다. 실제 응용에서는 전통적인 RGB 카메라가 다양한 시나리오에서 주요 센싱 모달로 사용되고 있으며, 무인 항공기, 자율주행차, 스마트 감시 및 기타 실시간 환경을 포함합니다. 그러나 RGB 카메라는 상대적으로 낮은 프레임 레이트(일반적으로 초당 30프레임)와 조명 변화에 대한 고민감 등 내재된 제약으로 인해 극한 조건에서의 성능이 만족스럽지 않습니다. 이러한 도전은 움직임 흐림과 중요한 정보의 손실로 이어져, 역동적인 환경에서 RGB 기반 추적 시스템의 신뢰성을 크게 저하시킵니다. 따라서 연구자들은 전통적인 카메라의 내재된 한계를 보완하고 극복할 수 있는 대체 센싱 모달을 탐구하게 되며, 이로 인해 더 견고하고 효과적인 시각 추적을 다양한 상황에서 가능하게 합니다.

/>
(a, b) 전통적인 사이메즈와 단일 스트림 트래커는 다중 모달 특징 융합 및 추출 단계에서 모든 시각 토큰을 처리해야 하므로 계산 복잡도가 높습니다. (c) 우리의 프레임워크에서는 초기 융합 단계에서 진폭과 위상 주의를 분리하여 토큰 수를 절반으로 줄이고, 이동 정보를 기반으로 한 공간 희박화를 사용하여 대상 관련 토큰에 집중함으로써 백본 계산을 크게 줄입니다.

생물학적으로 유래한 이벤트 카메라는 고동적 범위와 뛰어난 시간 해상도로 인해, 전통적인 프레임 기반 카메라가 자주 감지하지 못하는 빠른 움직임 장면과 미세한 조명 변화를 캡처할 수 있어 연구자들로부터 점점 더 많은 관심을 받고 있습니다. 인간 망막의 광 인식 메커니즘을 모방함으로써 이벤트 카메라는 장면 밝기 변동에 매우 민감합니다. +1이나 -1과 같은 극성을 가진 이벤트 신호는 장면의 밝기가 정해진 임계값을 초과하거나 하회할 때만 트리거됩니다. 전통적인 RGB 카메라와 달리, 이벤트 카메라는 고정된 프레임 레이트로 전체 이미지 프레임을 동기화하여 출력하는 대신 밝기 변화를 비동기적으로 기록하고 해당 이벤트 신호를 생성합니다. 결과적으로, 이벤트 카메라는 주변 조명에 대한 요구가 적으면서 고시간 해상도로 밝기 변동을 캡처할 수 있습니다. 따라서 전통적인 RGB 카메라와 비교해 암흑이나 고속 상황에서 특히 잘 작동합니다.

최근 몇 년 동안, 이벤트 카메라와 RGB 카메라를 결합하여 극한 조건에서의 유용성을 활용하고 다중 모달 추적의 견고성을 향상시키는 추적 알고리즘이 증가했습니다. 예를 들어, Tang 등은 이벤트 볼륨과 RGB 프레임을 결합하여 더 많은 시간 정보를 보존하고 비전 트랜스포머를 사용해 통일된 다중 모달 특징 추출 및 융합을 수행합니다. Zhang 등은 RGB와 이벤트 모달을 정렬하고 융합하는 고속도 프레임 레이트 다중 모달 추적 프레임워크를 제안하여 추적 성능을 크게 향상시킵니다. 그러나 기존의 RGB-이벤트 다중 모달 추적 알고리즘은 두 가지 주요한 한계를 가지고 있습니다: (1) 특징 수준 융합에 대한 도전: 대부분의 기존 방법은 RGB-이벤트 추적을 전통적인 다중 모달 융합 문제로 정의하고, 높은 추적 정확도를 위해 특징 수준 융합에 집중합니다. 그러나 이들은 종종 이벤트 데이터의 고동적 범위와 시간 밀도라는 본질적인 특성을 효과적으로 활용하지 못합니다. (2) 제한된 효율성: RGB 프레임과 이벤트 스트림을 함께 처리하면 계산 복잡성이 크게 증가합니다. Fig. 1 (a)와 (b)에서 보듯이, 전통적인 사이메즈 트래커와 널리 사용되는 단일 스트림 트래커는 다중 모달 융합 또는 특징 추출을 수행할 때 모든 시각 토큰을 동시에 처리해야 하므로 네트워크의 계산 부담이 크게 증가합니다. 따라서 이벤트 모달성 특성을 효과적으로 통합하여 효율적인 RGB-이벤트 시각 물체 추적을 달성하는 것은 여전히 도전적입니다.

위에서 언급한 문제를 해결하기 위해, 본 연구는 전통적인 특징 수준 융합에 대한 의존을 벗어나 주파수 영역에서 초기 단계의 모달성 융합을 채택합니다. 이를 통해 RGB와 이벤트 모달성의 보완적 강점을 선택적으로 집약할 수 있습니다. Fig. 1(c)에 보여진 것처럼, 우리는 두 가지 핵심 모듈을 도입합니다: 분리된 진폭-위상 주의 모듈이동 정보를 기반으로 한 공간 희박화 모듈. 첫 번째 모듈은 고동적 범위가 높은 이벤트 카메라의 장점을 활용하여 주파수 영역에서 진폭과 위상 주의 집합 방법을 사용합니다. 구체적으로, RGB와 이벤트 모달성은 먼저 공간 영역에서 주파수 영역으로 변환되며 그들의 진폭 및 위상 구성 요소는 분리됩니다. 진폭과 위상을 활용한 주의를 통해 이벤트 모달성의 고주파 정보가 선택적으로 RGB 모달성에 통합되어 어두운 조명 상태에서 이미지 품질이 개선되며 동시에 백본으로 입력되는 토큰 수는 절반으로 줄어듭니다.

이동 정보를 기반으로 한 공간 희박화 모듈에서는, Fast Fourier Transform (FFT)을 기반으로 하는 차분 트랜스포머 네트워크가 이벤트 볼륨에서 대상 관련 이동 정보를 추출합니다. 가벼운 점수 추정기는 표적의 공간 확률 분포를 계산하고 지수 감소 함수는 적응적인 Top-$`K`$ 값을 결정합니다. 이러한 메커니즘은 대상 관련 토큰을 유연하게 선택하고 배경 간섭을 억제함으로써 백본이 처리하는 토큰 수를 더 줄이고 표적에 초점을 맞춘 특징 표현을 강화합니다. 이 두 모듈은 계산 비용을 줄이고 대상 관련 특징 추출을 개선하여 어려운 상황에서 더욱 효과적인 RGB-이벤트 추적을 가능하게 합니다.

결론적으로, 본 연구의 기여를 다음과 같이 요약할 수 있습니다:

1). 우리는 주파수 영역에서 새로운 진폭과 위상 주의 메커니즘을 제안하여 이벤트 정보가 초기 단계에서 RGB 이미지와 융합되도록 함으로써 어려운 상황에서의 특징 표현을 강화하고 백본 네트워크의 계산 부담을 크게 줄였습니다.

2). 우리는 대상 관련 특징 표현을 강화하면서 불필요한 배경 정보를 필터링하는 이동 지향적 공간 희박화 전략을 도입했습니다.

3). FE108, FELT 및 COESOT라는 세 가지 공개 데이터셋에서 이루어진 광범위한 실험을 통해 제안된 다중 모달 추적기의 효과를 입증했습니다.

관련 연구

RGB-이벤트 기반 추적

RGB와 이벤트 카메라를 통합하여 물체 추적 성능을 향상시키는 것은 연구 커뮤니티에서 많은 관심을 받고 있습니다. 이전 작업에서는 Zhang 등이 CDFI를 설계해 프레임과 이벤트 표현을 정렬하고 자가 및 상호 주의를 적용하여 견고한 추적을 수행합니다. Wang 등은 교차 모달 트랜스포머를 사용하는 기본 트래커를 제시했습니다. 후속 작업들은 정밀한 공간-시간 정렬과 교차모달 상호작용에 초점을 맞추었습니다. STNet은 트랜스포머와 발화 신경망(SNN)을 활용해 전역 공간 정보와 시간적 표지물을 캡처하기 위해 제안되었습니다. AFNet은 이벤트 지향적인 교차모달 정렬(ECA) 모듈과 교차 상관 융합 헤드를 추가합니다. Zhu 등은 직교 고랭크 손실 함수와 모달 마스킹 토큰을 사용해 모달 충돌을 더 줄였습니다. 벤치마크 작업들은 장시간 시퀀스와 다양한 장면에 대한 RGB-이벤트 학습 및 평가를 통일합니다. Tang 등은 통합 데이터셋과 지표 세트를 제공하고, Wang 등은 강력한 기본 라인을 포함하는 장기 벤치마크를 공개했습니다. 최근에는 가벼운 아키텍처와 상태 공간 모델(SSM) 기반 트래커, 예를 들어 Mamba-FETrack이 모델 복잡성과 정확도 사이의 균형을 맞추었습니다. 평행하게, ViPT, SDSTrack 및 EMTrack은 파라미터 전달을 위해 추적기를 미세 조정합니다. 본 연구에서는 이전 작업들과 달리 이벤트 카메라의 장점을 활용하여 고동적 범위를 활용해 RGB 모달성의 공간 구조 표현을 강화하고, 높은 시간 해상도를 이용해 풍부한 움직임 정보를 통합합니다.

주파수 영역 모델링

주파수 영역 모델링은 다중 모달 융합에 있어서 매력적인 패러다임을 보여줍니다. 특히, 고전적인 상관 필터 추적기는 Fast Fourier Transform(FFT)을 사용하여 주파수 영역에서 작동합니다. MOSSE는 FFT 기반 최적화를 통해 적응형 필터를 학습하고, KCF는 빠른 밀도 샘플링을 위해 원환 구조와 커널화를 활용합니다.

딥러닝의 부상과 함께 주파수에 대한 접근 방식이 광범위하게 탐구되었습니다. 정보가 있는 구성 요소만 선택적으로 증폭하고 잡음을 억제하기 위한 것입니다. Jiang 등은 모델이 도전적인 스펙트럼 구성 요소에 집중하도록 하는 초점 주파수 손실을 제안했습니다. Wang 등은 FFT 사전 지식을 주입하여 채널별 특징을 정교하게 조정하는 빈도 채널 주의를 탐구했습니다. 한편, FDA는 도메인 간 저주파 진폭 교환으로 스펙트럼을 분리하며 고주파 위상을 유지합니다. FFConv은 FFT 혼합 iFFT로 긴 거리 맥락을 추가하는 스펙트럼 브랜치를 더했습니다. 그 후, Kong 등은 선명한 구성 요소에 초점을 맞추고 계산량을 줄이는 디블러링을 위해 스펙트럼 주의와 스펙트럼 피드 포워드 층을 갖춘 주파수 영역 트랜스포머를 개발했습니다. Chen 등은 현지 주파수에 따라 확장률을 조정하고 세그멘테이션 작업에서 미세한 세부 사항을 보존하기 위해 주파수 대역을 다시 가중합니다. FDConv은 밴드별 동적 커널을 적용해 구조를 강화하고 소음 제거를 통해 밀집 예측을 향상시킵니다. Zhang 등은 DMFourLLIE라는 두 단계 다중 분기 푸리에 네트워크를 제안하여 암성 이미지 개선에서 색상 왜곡과 잡음을 효과적으로 감소시킵니다. Cao 등은 이벤트 프레임과 그레이스케일 프레임을 푸리에 영역에서 융합하여 효과적인 동작 인식을 달성했습니다. 기존 연구와 비교해 본 연구에서는 진폭과 위상 주의를 사용한 RGB 및 이벤트의 주파수 영역 융합을 수행하고, FFT 기반 차분 ViT를 도입하여 이벤트 템플릿과 탐색 지역 간의 대상 상호작용이 가능하도록 합니다.

이벤트 기반 움직임 채굴

이벤트 카메라는 장면 밝기 변화를 비동기적으로 캡처하여 높은 시간 해상도와 풍부한 움직임 정보를 제공합니다. 이벤트 모달로부터의 움직임 정보를 추출하는 것은 필수적입니다. Gallego 등은 대조 최대화 프레임워크를 도입해 이벤트에서 직접 카메라나 물체의 움직임을 복원했습니다. 그들의 후속 조사에서는 트래킹에 대한 안정적인 사전 정보를 구축하는 움직임 보상 접근법에 대해 포괄적으로 다룹니다. EV-FlowNet와 같은 엔드 투 엔드 모델은 이벤트에서 광학 유동을 자가 감독 방식으로 학습하여 간단한 피크를 밀도 있는 움직임 필드로 변환하고 낮은 지연 정렬을 수행합니다. E2VID는 이벤트로부터 고시간 해상도 강도 프레임을 재구성해 움직임 블러를 줄이고 프레임 기반 모듈의 재사용성을 높입니다. Liu 등은 이벤트 기반 광학 유동 추정 네트워크를 소개하여 시간적으로 밀도가 높은 움직임 특징과 비용 볼륨 표현 사이의 보완성을 활용합니다. 시각 추적 분야에서, Zhang 등은 이벤트 스트림을 지속적인 시간 스파이크 순서로 처리하는 Spiking Transformer를 제안했습니다. CrossEI는 움직임에 맞춘 이벤트 샘플링 방법을 제안하고 이미지 데이터와 이벤트 데이터를 정렬하고 융합하기 위해 양방향 강화 융합 프레임워크를 설계합니다. 본 연구에서는 이벤트 볼륨 표현을 활용해 움직임 단서를 효과적으로 보존하고 이러한 단서를 활용하여 입력 토큰의 적응적 공간 희박화를 촉진하며, 모델이 움직임 관련 영역에 집중하면서 동시에 불필요한 배경 정보를 억제합니다.

/>
우리가 제안하는 효율적인 RGB-이벤트 추적을 위한 진폭-위상 주의 및 이동 지향적 희박화 프레임워크, APMTrack의 개요입니다. 구체적으로, RGB와 이벤트 입력은 먼저 주파수 영역에서 진폭과 위상을 분리하고, 고주파 이벤트 정보가 진폭과 위상 주의를 통해 RGB 모달성을 강화합니다. 이벤트 인코더는 움직임 단서를 추출하고 이를 FFT 기반 차분 ViT로 정교하게 처리한 후 공간 희박화 모듈을 통해 적응적 Top-K 토큰 선택을 안내합니다. 선택된 탐색 토큰과 템플릿 특징은 백본에 의해 처리되며, 추적 헤드는 최종 표적 위치를 예측합니다.

제안하는 접근법

개요

제안하는 RGB-이벤트 추적 프레임워크의 개요는 Fig. 2에 보여져 있으며, 두 가지 핵심 모듈로 구성됩니다. 분리된 진폭 및 위상 주의 모듈은 이벤트 모달성에서 표적 윤곽을 나타내는 고주파 정보를 RGB 모달성으로 통합하여 공간 구조 표현을 강화하고 백본 네트워크에 대한 계산 부담을 줄입니다. 이동 지향적 공간 희박화 모듈은 이벤트 모달성에서의 움직임 정보를 활용합니다. 이는 슬라이스된 이벤트 볼륨의 시간 동태를 모델링하여 불필요한 배경 정보를 적응적으로 억제하고 대상 관련 특징 표현을 강화하는 데 사용됩니다. 두 가지 모듈은 이벤트 카메라의 고동적 범위와 움직임 민감도를 완전히 활용하여 더 효율적인 RGB-이벤트 시각 추적을 가능하게 합니다. 다음 섹션에서는 Section 3.2에서 입력 표현, 즉 RGB 프레임과 이벤트 볼륨에 대해 설명하고, Section 3.3에서는 두 가지 핵심 모듈을 자세히 다루며 Section 3.4에서는 추적 헤드와 손실 함수를 소개합니다.

입력 표현

RGB 비디오 시퀀스가 $`N`$ 프레임, 즉 $`I = \{I_1, I_2, \dots, I_N\}`$로 표시되며 여기서 각 프레임은 $`I_i \in \mathbb{R}^{3 \times H \times W}`$이고 $`H`$와 $`W`$는 카메라의 공간 해상도를 나타냅니다. 해당 비동기 이벤트


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키