DRFormer: 이중 정규화 양방향 트랜스포머로 사람 재식별 혁신
초록
DRFormer는 DINO 기반 비전 파운데이션 모델의 세밀한 로컬 디테일과 CLIP 기반 비전‑언어 모델의 전역 의미 정보를 양방향 교차‑어텐션으로 융합한다. 토큰 다양성 정규화와 모델 간 편향 정규화를 도입해 각각의 토큰이 서로 다른 영역을 주목하도록 유도하고, 두 모델의 기여 비율을 최적화한다. 5개 데이터셋에서 기존 최첨단 방법과 동등하거나 우수한 성능을 기록한다.
상세 분석
본 논문은 사람 재식별(Person Re‑ID)에서 흔히 발생하는 가림, 자세 변화, 조명 변동 등에 대응하기 위해 “세밀한 로컬 특징”과 “전역 의미 특징”을 동시에 활용하는 새로운 프레임워크를 제시한다. 기존 연구들은 주로 하나의 사전학습 모델에 의존했으며, DINO와 같은 비전 파운데이션 모델(VFM)은 픽셀‑레벨 텍스처를 잘 포착하지만 전역적인 클래스 구분력은 부족하고, CLIP과 같은 비전‑언어 모델(VLM)은 텍스트와 이미지 간의 의미적 정렬을 통해 강력한 전역 표현을 제공하지만 로컬 디테일에 대한 민감도가 낮다.
DRFormer는 이러한 상보적 특성을 정량적으로 분석하고, 두 모델을 동시에 활용하는 구조를 설계한다. 핵심은 양방향 교차‑어텐션이다. DINO와 CLIP 각각에서 추출된 학습 가능한 토큰(N개)을 쿼리로 사용하고, 상대 모델의 토큰을 키와 밸류로 삼아 두 번의 교차‑어텐션을 수행한다. 첫 번째 단계에서는 DINO 토큰이 CLIP 토큰을 질의해 전역 의미를 로컬 디테일에 주입하고, 두 번째 단계에서는 그 반대 방향으로 전역 의미가 로컬 디테일을 보강한다. 이렇게 함으로써 두 모델 간의 피처가 깊이 상호작용하며, 단순한 연결(concatenation)보다 풍부한 표현을 얻는다.
하지만 양 모델을 그대로 결합하면 피처 중복과 학습 불균형 문제가 발생한다. 이를 해결하기 위해 두 가지 정규화 기법을 도입한다.
-
Intra‑model Token Diversity Regularizer (토큰 다양성 정규화)
- 각 모델 내부의 학습 가능한 토큰이 서로 다른 영역을 주목하도록 코사인 거리(유사도)를 최소화한다.
- 첫 번째 토큰에 카메라 정보(SIE)를 주입해 카메라 별 특성을 캡처하도록 하고, 나머지 토큰은 서로 다른 시각적 패턴을 학습하도록 강제한다.
- 실험 결과, 이 정규화는 DINO와 CLIP 각각의 어텐션 맵이 보다 분산되고, 백팩 등 미세한 디테일을 포착하게 하여 mAP가 2.5%p 상승한다.
-
Inter‑model Bias Regularizer (모델 간 편향 정규화)
- 두 모델의 출력 로짓이 선형 분류기에 합산될 때, 어느 한쪽이 과도하게 지배하는 현상을 방지한다.
- 일반화 오차를 bias‑variance 분해로 표현하고, 각 모델의 편향(Bias) 값을 이용해 최적 기여 비율 (w_0, w_1)을 계산한다.
- 이를 손실에 추가함으로써 학습 초기에 CLIP이 빠르게 수렴하는 현상을 완화하고, 최종적으로 두 모델이 균형 있게 기여하도록 만든다. 실험에서는 Market‑1501에서 정확도 격차가 1.8%p 감소하였다.
구조적 측면에서 DRFormer는 이미지 패치를 M개로 분할하고, 각각을 DINO와 CLIP에 입력한다. 이미지 토큰은 연산 비용 절감을 위해 버리고, 학습 가능한 토큰(N=4~8 정도)만을 사용한다. 양방향 트랜스포머는 1개의 교차‑어텐션 레이어와 2개의 자체‑어텐션 레이어로 구성되어, 계산량을 크게 늘리지 않으면서도 풍부한 상호작용을 구현한다. 최종 피처는 단순 선형 레이어에 입력되어 ID 분류 손실과 트리플렛 손실을 동시에 최적화한다.
실험에서는 Market‑1501, DukeMTMC‑reID, MSMT17, CUHK‑03, 그리고 VeRi‑776 등 5개의 대표적인 Re‑ID 벤치마크를 사용하였다. DRFormer는 mAP와 Rank‑1 정확도 모두에서 최신 SOTA 모델(예: TransReID, CLIP‑ReID, PersonViT 등)과 비교해 동등하거나 약간 우수한 결과를 보였으며, 특히 복잡한 포즈와 가림이 많은 데이터셋에서 전역‑로컬 융합의 장점이 두드러졌다.
전반적으로 DRFormer는 다중 사전학습 모델의 상보성을 정량화하고, 정규화 메커니즘을 통해 효율적으로 결합하는 방법론을 제시한다. 이는 Re‑ID뿐 아니라 다른 도메인(예: 영상 검색, 행동 인식)에서도 사전학습된 비전·언어 모델을 공동 활용하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기