이 논문은 텍스트 기반 인물 검색(TBPS)에 대한 새로운 접근법을 제안한다. TBPS는 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 문제이다. 이를 해결하기 위해, 본 논문은 CLIP과 같은 비전-언어 모델(VLM)의 발전을 활용하여 고급 정보를 추출하고자 한다. 그러나 기존 방법들은 추가적인 외부 자원에 의존함으로써 계산 및 주석 부담이 증가하는 문제점이 있다. 이를 해결하기 위해, 본 논문은 ITSELF라는 주의력 가이드로 내재적 공간 대응을 개선한 프레임워크를 제안한다. 이는 클립 모델의 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성한다.
💡 논문 해설
1. **ITSELF Framework:**
- TBPS에서 텍스트와 이미지 간의 미세한 일치를 찾기 위해 주의력 기반의 내재적 공간 대응 프레임워크를 제안합니다.
- 이는 모델이 자체 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성할 수 있도록 합니다.
- 예를 들어, 사진에서 사람의 특징적인 부분(예: 옷이나 가방)에 주목하는 것과 같다고 생각하면 됩니다.
Robust Selection & Scheduling:
다양한 레이어에서 수집된 주의 정보를 결합하여 가장 중요한 영역을 선택합니다.
이 과정은 훈련 초기에는 더 넓게, 나중에는 세밀하게 선택하는 스케줄러를 통해 안정적으로 진행됩니다.
이렇게 하면 모델이 중요한 부분에 초점을 맞추고 불필요한 정보는 제거할 수 있습니다.
Strong Empirical Results:
다양한 TBPS 벤치마크에서 우수한 성능을 보여주며, 이는 ITSELF 프레임워크의 효과를 입증합니다.
이 접근법은 외부 자원에 의존하지 않고도 텍스트와 이미지 간의 정교한 대응을 달성할 수 있다는 것을 보여줍니다.
📄 논문 발췌 (ArXiv Source)
# 서론
/>
텍스트 기반 인물 검색 패러다임의 발전. (a) 전역 일치 방법은 강력한 MLLM을 사용하여 추가 데이터 세트를 합성한다. (b) 최근 지역 은밀 일치 방법은 모든 지역 토큰 간의 관계를 은밀하게 추론한다. (c) 우리의 방법 - ITSELF with GRAB: 주의력 가이드로 지역 분지에서 미세한, 구별 가능한 특징을 학습하여 더 나은 일치를 달성하는 것.
텍스트 기반 인물 검색(TBPS)은 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 것을 목표로 한다. 이를 해결하려면 이미지와 텍스트에서 차이를 구분할 수 있는 신원 구별 정보를 추출해야 한다. 비전 언어 모델(VLMs)의 최근 발전, 특히 CLIP은 이러한 미세한 과제에 대한 강력한 잠재력을 보여주었다. 이 기반 위에 TBPS-CLIP이 TBPS에 CLIP을 적용하는 선구자가 되었고, 이를 따르는 확장 방법들은 텍스트–이미지 간의 격차를 더 좁히기 위해 노력했다. 그러나 많은 최근 방법은 비용이 많이 드는 외부 자원에 의존한다. 예를 들어 MLLMs을 사용하여 보조 데이터를 합성하는 것(1(a))은 효과적일 수 있지만, 계산 및 주석 비용을 증가시키고 확장성과 견고성을 저해한다.
이 한계를 극복하기 위해 간단한 질문을 제기한다: TBPS 모델이 비싼 외부 지도 없이 미세한 구별 가능한 세부 사항을 자체적으로 포착할 수 있을까? 이를 최소화하기 위해 최근 연구는 은밀 지역 대응
(1(b))를 추구하여 부담스러운 외부 지도 없이 구별 가능한 단서를 탐색한다. 임베딩 공간 대응 방법은 암시적 신호로부터 영역–문장 일치를 추론하지만, 희박한 라벨로 인해 이러한 대응이 약하게 제약되어 불안정하다. 완전히 은밀한 특징 학습은 지역 손실을 최적화하나 특정 문장-영역 쌍의 의미론을 무시하며 정확한 대응을 보장하지 않는다. 마스킹 모델 스타일의 대응은 교차 모드 재구성으로 근거를 강화하나, 전역 컨텍스트 단축은 진정한 종속성을 피할 수 있다. 이러한 선에서 핵심 문제는 계속된다: 지역 제약이 너무 약하여 지도가 흩어지고 구별 가능한 영역 선택을 약화하며 견고한 지역 특징 학습을 제한한다.
주의력은 미세한 단서를 표면화하고 교차 모드 대응을 강화하는 데 적합하나 TBPS에서 그 잠재력이 충분히 탐색되지 않았다. 이를 확인하기 위해 간단한 진단을 수행해본다: 주의력 가이드된 유지 마스킹
(2). 각 이미지에 대해 이미지 인코더의 마지막 층에서 주의력을 계산하고, 상위-$`k`$ 패치를 유지하며 나머지를 마스킹한다. 그런 다음 RSTP-Reid에서 초기 에폭과 여러 가지 유지 비율에 대해 원래 입력과 그 대응체 사이의 R1 정확도 격차를 측정한다. 이 분석은 두 가지 일관된 패턴을 드러낸다. 첫째, 가시성이 빠르게 나타난다: 에폭 3부터 모든 유지 설정에 대해 R1 격차가 1% 미만으로 떨어지며, 유지된 패치가 거의 모든 구별 가능한 증거를 포착하고 있음을 나타낸다. 둘째, 주의력은 공간적으로 정밀하다: 선택된 패치는 의미론적으로 중요한 부분과 운반 물건과 일관되게 대응하여 구별 가능 지역-문장 대응을 위한 신뢰할 수 있는 로케이션 단서를 제공한다.
/>
RSTP 데이터셋에서 초기 훈련 에폭 동안 마스크 유지 비율에 따른 마스킹과 무마스크 이미지 간의 Rank-1 정확도 격차.
이 결과를 바탕으로 TBPS에서 은밀 지역 대응을 위한 주의력 가이드 프레임워크인 ITSELF를 제안한다. ITSELF는 전역 텍스트–이미지 대응 손실을 최적화하며, 이에 Guided Representation with Attentive Bank (GRAB)라는 주의력을 기반으로 한 지역 분지를 추가하여 모델 자체의 주의력만 사용하여 두 가지 모드에서 구별 가능한 토큰을 선택하는 Attentive Bank를 구성한다
(1(c)). 이전 방법들은 지역 대응을 완전히 은밀하게 유지하여 문장–영역 대응에 직접적인 제약을 제공하지 않으며, 이러한 접근법은 단순화 학습과 잘못된 상관관계를 초래하여 불일치를 일으키지만, 우리의 방법은 주의력에서 파생된 지역성 사전을 주입하여 가장 정보가 풍부한 영역에 학습을 집중하고 이를 모드 간에 일관되게 대응시켜 노이즈를 억제하고 전역 대응을 강화한다. 본질적으로, 우리의 주요 혁신은 내부 가시성 맵을 미세한 대응을 위한 신뢰할 수 있는 기준으로 변환하는 주의력 기반 은밀 지역 메커니즘이다.
다양한 주의 헤드들이 보완적인 단서에 특화되고, 다양한 깊이에서 다른 패턴이 나타나는 분석 결과를 바탕으로 ITSELF 내부 GRAB에는 Multi-Layer Attention for Robust Selection (MARS)을 도입하여 단일 주의 맵에서 동일한 우세 토큰을 반복적으로 선택하는 것을 피한다. MARS는 레이어 간에 주의력을 결합하고, 모드를 가로지르며 다양성에 대한 상위-$`k`$ 선택을 수행하여 보완적인 커버리지를 확보한다. 선택된 토큰은 GRAB의 Attentive Bank에 포함되며, 여기서 지역 목표는 모드 간 및 내부 구조를 강화한다.
(2)에서 보듯이 마스킹되지 않은 입력과 주의력 유지된 입력 간의 R1 격차가 초기 에폭에서 빠르게 좁아지므로, 우리는 Adaptive Token Scheduler (ATS)를 추가하여 중요한 단서를 제거하고 그로 인한 훈련 불안정성을 피하는 더 큰 유지 예산을 시작하고 점진적으로 예산을 조절하여 고신뢰도의 미세한 토큰에 집중한다. 이러한 스케줄은 중복과 잘못된 부정을 줄이고 지역 학습을 안정화한다. 마지막으로 최근 관행에 따라 CLIP을 백본으로 채택하여 ITSELF는 사전 학습 지식을 전이하면서 TBPS에서 교차 모드, 은밀한 지역 대응을 계속 학습할 수 있다. 요약하면, 우리의 주요 기여는 다음과 같다:
ITSELF Framework: 새로운 주의력 가이드된 은밀 지역 대응 프레임워크인 ITSELF를 제안하며, GRAB은 인코더 주의력을 활용하여 추가 지도 없이 미세한 단서를 파악하고 전역 대응을 강화한다.
Robust Selection & Scheduling: MARS를 제안함으로써 다양한 레이어에서 수집된 주의 정보를 결합하고 다양성에 대한 상위-$`k`$ 선택을 수행하며, ATS는 훈련 과정에서 유지 예산을 점진적으로 조절하여 학습 안정화와 초기 정보 손실 방지를 돕는다.
Strong Empirical Results: 다양한 TBPS 벤치마크에서 우수한 성능을 보여주며, 교차 데이터셋 일반화를 개선하고 우리의 접근법의 효과성과 견고성을 확인한다.
관련 연구
텍스트 기반 인물 검색(TBPS)
최근 몇 년 동안 컴퓨터 비전 커뮤니티는 TBPS에 큰 관심을 보여왔다. CLIP과 같은 Vision-Language Pretraining이 등장함에 따라 TBPS 연구는 대규모 사전 학습을 사용하여 강력한 교차 모드 표현을 달성하는 데 집중하고 있다. 최근의 연구들은 부수적인 신호를 통합하여 TBPS 성능을 향상시키고자 노력한다. 예를 들어, 일부 방법은 인간 파싱 또는 포즈 추정을 사용하여 의미론적 영역에 초점을 맞추며, 다른 방법은 외부 REID 데이터셋을 활용하여 보행자 도메인에 더 잘 적응하도록 한다. 이러한 전략들은 미세한 대응을 향상시키지만 추가적인 학습 비용, 주석 의존성 또는 도메인 편향을 소개한다. 반면, 우리의 방법은 외부 데이터셋이나 도구에 의존하지 않고 두 가지 모드에서 미세한 지역 특징을 추출하고 대응하여 TBPS의 세밀함과 정보 격차를 효과적으로 해결한다.
TBPS를 위한 지역 대응
이전 연구들은 명시적 또는 은밀한 방법을 사용하여 미세한 대응을 향상시키고자 노력했다. 명시적 접근법은 인간 파싱 네트워크나 대규모 사전 학습과 같은 외부 단서를 활용한다. 그러나 이러한 방법들은 광범위한 외부 지도, 추가 주석 및 계산 자원에 의존하여 일반화 능력을 제한한다. 반면 은밀한 접근법은 네트워크 내에서 직접 지역 대응을 학습하며 외부 데이터를 사용하지 않는다. 이는 주석의 종속성을 제거하나, 텍스트 설명과 특정 이미지 영역 간의 관계가 명시적으로 강제되지 않기 때문에 학습된 표현이 미세한 교차 모드 세부 사항을 실제로 포착하는지 확신할 수 없다. 우리의 방법은 주석 없는 은밀 작업 위에 기반하나 중요한 차이점을 소개한다. 외부 모델이나 약하게 근거된 특징 학습 대신 CLIP 내의 본질적인 주의 맵을 직접 활용한다. 여러 레이어에서 미세한 단서를 파악하고 가장 정보가 풍부한 영역을 선택함으로써 우리의 접근법은 더 구별 가능한 표현을 생성한다. 이 경량 설계는 추가 지도 또는 사전 학습 없이 지역 대응을 개선한다.
방법론
이 섹션에서는 제안된 프레임워크인 ITSELF의 개요를 **3.1**에 제공한다. 그런 다음 핵심 메커니즘인 GRAB, MARS와 ATS를 포함한 내용을 **3.2**에서 자세히 설명한다. 마지막으로 전체 파이프라인의 학습 전략과 추론 과정을 **3.3**에서 제시한다.
제안된 ITSELF 개요(주의력 가이드된 은밀 지역 대응 프레임워크). 이 아키텍처는 이미지(왼쪽)와 텍스트(오른쪽)를 위한 복수의 스트림 인코더로 구성되어 있다. 중심에는 GRAB(Guided Representation with Attentive Bank) 모듈이 위치해 있으며, 미세한 구별 가능한 단서를 학습하기 위해 설계되었다. GRAB는 두 가지 주요 구성 요소로 구성된다: MARS(Multi-layer Attention for Robust Selection), 레이어 간에 주의를 결합하여 정보가 풍부한 패치/토큰을 선택하고, ATS(Adaptive Token Scheduler)는 학습 과정에서 토큰 선택을 미세하게 조절한다. 모델은 두 가지 손실 전략으로 최적화된다: 지역 손실 Llocal
가 가이드된 지역 표현을 맞추고, 전역 손실 Lglobal
는 최종 전체 임베딩을 맞춘다. 이를 통해 ITSELF는 추가 지도 없이 전역 텍스트-이미지 대응을 강화하고 추론 시 비용을 추가하지 않는다.
ITSELF Framework
우리의 프레임워크에는 세 가지 주요 구성 요소가 포함되어 있다 3: (a) 이미지를 임베딩으로 인코딩하는 Image Encoder $`f_{v}`$, (b) 캡션에서 텍스트 임베딩을 생성하는 Text Encoder $`f_{t}`$, 그리고 (c) GRAB(Guided Representation with Attentive Bank), 모델 자체의 주의력을 활용하여 고급 토큰의 주의 뱅크를 구성한다. 이 뱅크에 로컬 목표를 적용하면 추가 지도 없이 미세한 대응을 학습할 수 있다. 기존 연구에서 CLIP ViT-B/16을 시각적 및 텍스트 모드의 백본으로 채택하였다.
Image Encoder: 입력 이미지 $`I_i \in V`$를 주어졌을 때, 우리는 이를 크기 $`P`$인 겹치지 않는 패치로 나누고, 플랫팅하고 $`D`$-차원 공간으로 투영한다. 학습 가능한 [CLS] 토큰과 위치 임베딩을 추가한 시퀀스를 트랜스포머 인코더에 주입하여 시각적 임베딩 $`\mathcal{V}_i = f_v(I_i) = \{ v^i_{\text{global}}, v^i_{local} \} \in \mathbb{R}^{(1+N)\times D}`$을 얻는다. 여기서 $`{v^i_{global}} = {v}^i_{\text{cls}}`$가 전역 임베딩이고, $`v^i_{local} = \{v^i_j\}_{j=1}^N`$이 패치 임베딩이다.
Text Encoder: 텍스트에 대해서는 CLIP의 트랜스포머 기반 인코더를 채택한다. 캡션 $`T_i \in T`$가 주어졌을 때, 이를 BPE로 토큰화하고 [SOS]/[EOS] 토큰으로 감싸고 임베딩하여 트랜스포머를 통해 전송해 $`\mathcal{T}_i = f_t(T_i) = \{ t^i_{\text{global}}, t^i_{\text{local}} \} \in \mathbb{R}^{(L+2)\times D},`$을 얻는다. 여기서 $`t^i_{\text{global}} = t^i_e`$ (from [EOS])가 전역 임베딩이고, $`t^i_{\text{local}} = \{t^i_j\}_{j=1}^L`$이 토큰 수준의 임베딩이다. [SOS] 토큰 $`t^i_s`$는 유지되나 사용되지 않는다.
Guided Representation with Attentive Bank
Multi-layer Attention for Robust Selection
강건한 은밀 지역 표현을 학습하기 위해 GRAB를 설계한다. 이를 통해 다양한 고급 토큰의 다각적인 세트를 유지할 수 있다. 우리의 연구 결과 **2**에 따르면, 초기 훈련 에폭부터 핵심 신원 단서를 인코딩하는 고정 주의값을 가진 토큰이 있다. 그러나 단일 고정 레이어에서만 선택하는 것은 본질적으로 부적절하다. 트랜스포머 레이어는 다양한 유형의 정보를 캡처한다: 얕은 레이어는 저수준 텍스처에 중점을 두고, 중간 레이어는 더 넓은 컨텍스트를 포착하며, 깊은 레이어는 세미안틱 추상화를 인코딩할 수 있지만 미세한 세부 사항을 억제한다. 이를 극복하기 위해 **Multi-layer Attention for Robust Selection (MARS)**을 도입하여 여러 레이어 간의 주의 정보를 결합하고 더 안정적이고 신뢰할 수 있는 패치 중요성 추정을 제공한다. 정확히 말하면, 선택된 레이어 $`\ell \in \mathcal{L}`$에서 주의 맵 $`\mathbf{A}^{(\ell)} \in \mathbb{R}^{ N \times N}`$을 주어졌을 때, 가장 낮은 $`\delta_\ell`$ 비율의 주의 중량을 제거하여 무용한 연결을 필터링한다. 필터링된 주의 맵은 정체성 행렬 I과 결합하여 자가 종속성을 유지하고 정규화된다: