축구 트래킹 최강 솔루션 GTATrack

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GTATrack은 Deep‑EIoU 기반의 모션‑무관 온라인 매칭과 전역 트랙릿 병합을 수행하는 GTA‑Link를 결합한 2단계 계층형 추적 프레임워크이다. fisheye 카메라가 만든 왜곡·스케일 차이를 보정하기 위해 pseudo‑labeling으로 검출 재현율을 높였으며, HOTA 0.60·FP 982라는 우수한 성능을 SoccerTrack 2025 챌린지에서 달성했다.

상세 분석

본 논문은 스포츠 현장, 특히 정적 fisheye 카메라가 설치된 축구 경기에서 발생하는 다중 객체 추적(MOT) 문제를 해결하기 위해 두 가지 핵심 모듈을 설계하였다. 첫 번째 모듈인 Deep‑EIoU는 기존 Kalman 필터 기반 트래커가 전제하는 선형·부드러운 움직임 가정을 완전히 배제하고, Bounding Box를 단계적으로 확장하는 Expansion IoU(EIoU)와 딥러닝 기반 외관 특징을 결합한 비용 함수를 사용한다. 이때 확장 단계는 현재 프레임의 검출 영역을 점진적으로 넓혀가며, 급격한 방향 전환이나 급가속 상황에서도 충분한 공간적 여유를 제공한다. 외관 비용은 OSNet으로 추출한 L2 정규화 임베딩의 코사인 거리로 정의되며, 이는 유니폼 색상·패턴이 거의 동일한 상황에서도 미세한 텍스처 차이를 포착한다. 두 비용을 가중합한 후 Hungarian 알고리즘으로 최적 매칭을 수행함으로써, 실시간 온라인 추적 단계에서 높은 매치 정확도와 낮은 ID 스위치를 달성한다.

두 번째 모듈인 GTA‑Link는 온라인 단계에서 발생할 수 있는 트랙릿 파편화와 장기 ID 교체 문제를 전역적으로 보정한다. 초기 트랙릿들을 spatio‑temporal 거리와 외관 유사도 기반의 계층적 클러스터링으로 그룹화하고, 클러스터 내에서 최적 연결 그래프를 구성한다. 이 과정에서 시간적 일관성을 보장하기 위해 일정 프레임 간격 내의 위치 예측 오차를 허용 범위로 설정하고, 외관 임베딩의 평균값을 클러스터 대표로 사용한다. 결과적으로 장기간 occlusion 후 재등장하는 선수들의 ID를 정확히 복원하고, 전체 트랙릿 수를 감소시켜 HOTA와 IDF1을 크게 향상시킨다.

검출 단계에서는 YOLOv11x와 SO‑DETR 두 모델을 실험했으며, 소형·원거리 객체에 대한 재현율을 높이기 위해 pseudo‑labeling 기반 반지도 학습을 적용하였다. 비지도 라벨을 고신뢰도 검출에서 추출해 학습 데이터에 추가함으로써, 특히 fisheye 영상의 주변부에서 작은 선수들을 놓치지 않도록 했다.

전체 파이프라인은 (1) 다중 스케일 대응이 가능한 YOLOv11x 검출, (2) OSNet 기반 외관 특징 추출, (3) Deep‑EIoU를 이용한 온라인 트랙릿 생성, (4) GTA‑Link를 통한 전역 트랙릿 병합 순으로 구성된다. 실험 결과, SoccerTrack 2025 베이스라인 대비 HOTA 0.60(베이스라인 0.48) 및 FP 982(베이스라인 1450) 등 모든 주요 지표에서 현저히 우수한 성능을 보였으며, 실시간 처리 속도도 30FPS 이상을 유지하였다.

이 논문의 주요 기여는 (1) 모션 예측을 배제하고 확장 IoU와 딥 외관을 결합한 Deep‑EIoU를 제안해 급격한 움직임에 강인함을 확보, (2) 전역 트랙릿 병합을 위한 GTA‑Link를 설계해 장기 ID 일관성을 보장, (3) fisheye 영상 특성에 맞춘 pseudo‑labeling 기반 검출 재현율 향상 전략을 도입, (4) 두 단계의 로컬‑글로벌 연계를 통해 스포츠 MOT에서 흔히 발생하는 ID 스위치와 트랙 파편화를 효과적으로 감소시켰다는 점이다. 이러한 설계는 향후 다른 스포츠 도메인이나 광각 카메라 기반 영상에서도 일반화 가능성이 높다.

축구 트래킹 최강 솔루션 GTATrack

초록

상세 분석

댓글 및 학술 토론

의견 남기기