다중샷 사람 재식별을 위한 관계형 스테인 발산 기반 유사도 벡터 모델

본 논문은 사람 이미지의 공분산 행렬을 SPD(대칭 양정) 매니폴드 상의 점으로 보고, 전통적인 접선공간 임베딩 대신 스테인(Stein) 발산을 이용해 각 클래스 대표와의 유사도를 계산한다. 얻어진 유사도 벡터에 선형 판별 분석(LDA)을 적용해 차원을 축소하고, 최근접 이웃 분류기로 최종 재식별을 수행한다. iLIDS와 ETHZ 데이터셋에서 기존 PLS, SDALF, HPE 등과 비교해 우수한 CMC 성능을 달성한다.

저자: Azadeh Alavi, Yan Yang, Mehrtash Har

다중샷 사람 재식별을 위한 관계형 스테인 발산 기반 유사도 벡터 모델
본 논문은 사람 재식별(Person Re‑Identification) 문제를 매니폴드 기반 이미지 표현과 새로운 거리 측정 방법으로 접근한다. 기존의 단일 이미지 기반 혹은 다중 이미지 기반 방법들은 대부분 유클리드 공간에서 피처를 다루었으며, 매니폴드의 곡률을 무시하거나, 매니폴드를 접선공간에 임베딩하는 방식을 사용했다. 이러한 접근은 매니폴드의 진정한 기하학적 구조를 왜곡하고, 특히 고차원 SPD(대칭 양정) 행렬에 대해 계산 비용이 크게 증가한다는 한계가 있었다. 논문은 먼저 전경 픽셀을 추출하고, 각 픽셀에 대해 위치, HSV·CIELAB 색상, RGB 채널의 그래디언트 크기·방향을 포함하는 14차원 피처 벡터 f를 만든다. 이 피처들의 공분산 행렬 C = (1/(N−1)) Σ_i (f_i−μ)(f_i−μ)^T 로 계산하여 이미지당 하나의 SPD 행렬을 얻는다. 공분산 행렬은 이미지 크기에 독립적이며, 피처 간 상관관계를 자연스럽게 포착한다는 장점이 있다. SPD 행렬은 Riemannian 매니폴드 S⁺_d에 속한다. 기존에 널리 쓰이는 Affine‑Invariant Riemannian Metric(AIRM)은 정확하지만 고유값 분해가 필요해 계산량이 크고, 매니폴드의 음의 곡률 때문에 전통적인 선형 학습 알고리즘을 바로 적용하기 어렵다. 대신 논문은 Jensen‑Bregman Log‑Det 발산, 즉 대칭 스테인 발산 J_φ(A,B)=log det((A+B)/2)−½log det(AB) 를 선택한다. 이 발산은 대칭이며, congruence 변환과 역변환에 불변하고, AIRM보다 계산적으로 효율적이다. 다음 단계에서는 각 훈련 클래스 l에 대해 클래스 내 다른 샘플과의 스테인 발산 평균을 구해, 샘플 X_i와 클래스 l 사이의 유사도 s_{i,l} 를 정의한다. 이렇게 하면 원래 매니폴드 상의 점 X_i는 m차원(클래스 수) 유사도 벡터 s_i 로 변환된다. 유사도 벡터는 완전한 유클리드 공간에 존재하므로, 선형 판별 분석(LDA)을 적용해 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 변환 W* 를 학습한다. 변환 후 특징 x_i = W*^T s_i 에 대해 최근접 이웃(NN) 분류를 수행한다. 이 전체 파이프라인을 “Relational Divergence Classification(RDC)”라 명명한다. 실험에서는 두 개의 공개 데이터셋, iLIDS와 ETHZ를 사용하였다. iLIDS는 공항 CCTV 영상에서 추출된 119명의 보행자 이미지(총 479장)이며, ETHZ는 이동 카메라에서 촬영된 3개의 시퀀스로 구성된다. 각 데이터셋에서 다중샷 설정(N=3 for iLIDS, N=10 for ETHZ)을 적용해 10번의 랜덤 샘플링 실험을 수행하였다. 성능 평가는 Cumulative Matching Characteristic(CMC) 곡선으로 나타냈다. iLIDS 실험에서 RDC는 직접 스테인 발산 기반 NN(“direct Stein”)보다 높은 정확도를 보였으며, 기존 SDALF와 Context‑Based 방법을 모두 앞섰다. ETHZ 시퀀스 1·2에서는 PLS, SDALF, HPE보다 현저히 높은 CMC 곡선을 기록했으며, 시퀀스 3에서는 SDALF와 비슷한 수준을 유지했다. 특히 RDC는 별도의 클러스터링이나 파라미터 튜닝 없이도 좋은 성능을 보여, 실제 감시 시스템에 적용하기에 실용적이다. 결론적으로, 이 논문은 (1) 이미지당 공분산 행렬을 통해 매니폴드 기반 특징을 추출하고, (2) 스테인 발산을 이용해 클래스 간 유사도를 효율적으로 측정하며, (3) 유사도 벡터에 LDA를 적용해 판별력을 강화하는 새로운 프레임워크를 제시한다. 전통적인 접선공간 임베딩 방식이 갖는 구조 왜곡 문제를 회피하면서도 계산 효율성을 확보했으며, 다중샷 사람 재식별에서 기존 최첨단 방법들을 능가하는 성능을 입증하였다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기