큐에서 얼굴 추적을 위한 바이오메트릭과 외관 융합 트래커 FaceQSORT

큐에서 얼굴 추적을 위한 바이오메트릭과 외관 융합 트래커 FaceQSORT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FaceQSORT는 사람들의 얼굴이 대기열을 따라 이동하는 상황을 목표로, 동일한 얼굴 이미지 패치에서 추출한 바이오메트릭 특징과 시각적 외관 특징을 결합해 다중 얼굴을 추적하는 새로운 방법이다. 새로운 PLUSFiaQ 데이터셋(7개 시퀀스, 12,730 프레임)과 공개 데이터셋을 활용한 실험에서 기존 최첨단 트래커들을 능가하는 성능을 보였으며, 파라미터 선택, 유사도 측정 방식, 얼굴 인식 모델 등에 대한 상세 분석도 제공한다.

상세 분석

FaceQSORT는 “Tracking‑by‑Detection”(TbD) 패러다임을 기반으로 설계되었으며, 얼굴 검출 단계 이후에 두 종류의 특징을 동시에 활용한다. 바이오메트릭 특징은 사전 학습된 얼굴 인식 모델(예: ArcFace)에서 추출된 512‑차원 임베딩으로, 개인 고유의 식별 정보를 담는다. 반면 외관 특징은 일반 이미지 분류기(예: ResNet)에서 얻은 시각적 표현으로, 얼굴이 부분적으로 가려지거나 측면을 향했을 때도 일정 수준의 구분력을 제공한다. 두 특징 간의 코사인 유사도를 각각 (C_{bio})와 (C_{app})라 정의하고, 가중치 (\lambda)를 통해 선형 결합한 비용 (C_{app/bio}= \lambda C_{bio} + (1-\lambda) C_{app})을 만든다. 이때 (\lambda)는 실험을 통해 최적값을 탐색했으며, 일반적으로 0.6~0.8 사이가 좋은 성능을 보였다.

공간적 제약도 비용 행렬에 포함시켜, 마할라노비스 거리 (d_{pos})가 사전 정의된 임계값 (\theta_{pos})를 초과하면 해당 매칭을 차단한다. 최종 비용은 (C = \beta C_{app/bio} + (1-\beta) C_{pos}) 형태로 결합되며, (\beta) 역시 실험적으로 조정한다. 이렇게 구성된 비용 행렬에 대해 헝가리안 알고리즘을 적용해 전역 최소 매칭을 구하고, 매칭 카스케이드를 도입해 이전 프레임에서 성공적으로 매칭된 트랙부터 순차적으로 처리한다. 이는 장시간 가림 현상에서 탐색 공간을 크게 줄여 연산 효율성을 높인다. 매칭이 실패한 검출에 대해서는 IoU 기반의 폴백 매칭을 수행한다.

트랙 상태 관리 역시 세밀하게 설계되었다. 새로 생성된 트랙은 일정 프레임(N_init) 동안 재검증을 거쳐 확정되며, 매칭에 실패한 트랙은 N_max 프레임 연속으로 유지 후 삭제된다. 또한 EMA(Exponential Moving Average) 방식을 이용해 바이오메트릭 및 외관 특징을 시간에 따라 부드럽게 업데이트함으로써 프레임 간 특징 변동에 대한 강인성을 확보한다. 위치 예측은 NSA Kalman Filter를 사용해 다음 프레임의 예상 위치를 제공한다.

복잡도 분석에 따르면, 헝가리안 알고리즘의 최악 경우 복잡도는 (O(|\Phi|^2 |\Psi|))이며, 매칭 카스케이드와 IoU 폴백을 고려해도 동일한 차수에 머문다. 실제 시나리오에서는 검출 수가 트랙 수와 거의 일치하므로 실시간 적용이 가능하다.

데이터셋 측면에서 저자들은 “PLUS Faces in a Queue”(PLUSFiaQ)라는 새로운 다중 얼굴 트래킹 데이터셋을 공개했다. 7개의 시퀀스로 구성된 이 데이터는 25 fps, 총 12,730 프레임에 걸쳐 대기열에서의 복잡한 움직임, 부분 가림, 측면 회전 등을 포함한다. 또한 기존 ChokePoint 데이터와 MusicVideo 데이터도 실험에 활용해 일반화 성능을 검증하였다.

실험 결과, FaceQSORT는 MOTA, IDF1, IDSW 등 주요 MOT 지표에서 기존 DeepSORT, StrongSORT, IDOL 등 최신 트래커들을 일관되게 앞섰다. 특히 부분 가림이나 측면 얼굴에서 외관 특징이 바이오메트릭 특징을 보완해 매칭 정확도를 크게 향상시켰다. 파라미터 (\lambda)와 (\beta)에 대한 민감도 분석에서는 (\lambda)가 0.7, (\beta)가 0.6일 때 최적 성능을 보였으며, 코사인 유사도 대신 유클리드 거리로 교체했을 경우 성능이 소폭 감소함을 확인했다.

전반적으로 FaceQSORT는 동일 이미지 패치에서 두 종류의 특징을 효율적으로 결합함으로써, 기존 단일 특징 기반 트래커가 겪는 회전·가림 문제를 효과적으로 완화한다. 또한 공개된 PLUSFiaQ 데이터셋은 대기열 환경에서의 다중 얼굴 트래킹 연구에 새로운 벤치마크를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기