스포츠 영상에서 고속·소형 공을 정확히 추적하는 딥러닝 네트워크 TrackNet
TrackNet은 640×360 해상도의 방송 영상을 입력으로, 단일 프레임 혹은 연속 프레임을 이용해 테니스·배드민턴 공의 위치를 히트맵 형태로 예측한다. VGG‑16 기반 인코더와 FCN 디코더를 결합하고, 연속 프레임을 통한 궤적 학습으로 흐릿하거나 가려진 공까지도 높은 정밀도(Precision 99.7 %, Recall 97.3 %, F1 98.5 %)를 달성한다. 10‑fold 교차검증에서도 95.3 %·75.7 %·84.3 %의 성능…
저자: Yu-Chuan Huang, I-No Liao, Ching-Hsuan Chen
본 논문은 방송 영상이나 스마트폰으로 촬영된 저해상도·저프레임 레이트 영상에서도 고속·소형 공(테니스·배드민턴)을 정확히 추적할 수 있는 딥러닝 기반 시스템인 TrackNet을 제안한다. 연구 배경은 기존 상용 솔루션이 고가의 고해상도·고프레임 카메라와 다중 카메라 배열을 필요로 하여 일반 사용자나 아마추어 팀에게는 접근성이 낮다는 점이다. 특히 테니스와 배드민턴은 공이 작고 빠르게 움직이며, 셔터 타임이 길어 흐림·잔상 현상이 빈번해 전통적인 이미지 처리 기법으로는 검출률이 급격히 떨어진다.
**1. 관련 연구**
논문은 기존 객체 검출 모델(R‑CNN, YOLO)과 FCN 기반 픽셀‑단위 분류 방식을 비교한다. R‑CNN은 후보 영역(Region of Interest) 생성에 비용이 많이 들고, YOLO는 빠르지만 작은 객체에 대한 정확도가 떨어진다. 반면 FCN은 전체 이미지에 대해 픽셀 수준의 예측을 제공하므로, 작은 객체를 놓치지 않는다. 또한, 연속 프레임을 활용한 궤적 기반 추적(Particle Filter, Data Association) 연구를 언급하며, 이러한 방법이 딥러닝과 결합될 경우 성능 향상이 기대된다고 제시한다.
**2. 데이터셋 구축**
주요 데이터는 2017년 여름 유니버시아드 남자 단식 결승전 방송 영상(1280×720, 30 fps, 75 min)에서 추출한 20,844개의 프레임이다. 각 프레임은 ‘가시성 클래스(VC)’ 0‑3, 좌표(X, Y), ‘궤적 패턴(비행, 타격, 바운스)’ 라벨이 부여되었다. VC 0은 공이 화면에 없음을, VC 1은 명확히 보이는 경우, VC 2는 색·배경 혼합으로 식별이 어려운 경우, VC 3은 완전히 가려진 경우를 의미한다. 추가로 9개의 다양한 코트(잔디, 클레이, 하드) 영상을 통해 16,118개의 보조 프레임을 수집했으며, 배드민턴 2018 인도네시아 오픈 결승전 영상에서도 18,242개의 프레임을 라벨링했다.
**3. 모델 설계**
TrackNet은 크게 인코더와 디코더로 구성된다. 인코더는 VGG‑16을 차용해 5개의 컨볼루션 블록을 통해 점진적으로 특성 맵을 축소한다. 여기서 중요한 차별점은 연속 프레임을 채널 차원으로 결합해 입력한다는 점이다(예: 3프레임 → 3×채널). 이렇게 하면 시간적 정보를 직접 학습하게 된다. 디코더는 FCN 방식의 업샘플링(DeconvNet)과 스킵 연결을 이용해 원본 해상도와 동일한 크기의 히트맵을 생성한다. 히트맵은 정답 라벨과 동일한 가우시안 분포를 갖도록 설계했으며, 손실 함수는 RMSE와 교차 엔트로피를 혼합해 학습 안정성을 높였다.
**4. 학습 및 검증**
학습은 Adam 옵티마이저(learning rate 1e‑4)와 배치 정규화, 데이터 증강(수평 뒤집기, 밝기 변동)으로 진행했다. 10‑fold 교차검증을 통해 과적합을 방지했으며, 각 폴드마다 9개의 보조 영상과 원본 영상의 일부를 학습·검증에 사용했다. 단일 프레임 모델과 다중 프레임 모델을 비교했을 때, 다중 프레임 모델이 평균 Recall을 2.5%p 상승시켰다.
**5. 실험 결과**
- **주요 데이터(2017 유니버시아드) 평가**: Precision 99.7 %, Recall 97.3 %, F1 98.5 %
- **10‑fold 교차검증**: Precision 95.3 %, Recall 75.7 %, F1 84.3 % (다양한 코트·조명 조건 포함)
- **기존 이미지 처리 알고리즘(Archana’s algorithm) 대비**: 기존 방법은 평균 Precision ~70 %, Recall ~55 % 수준으로, TrackNet에 비해 약 30%p 이하의 성능 차이.
배드민턴 영상에서도 417 km/h 수준의 셔틀콕을 일정 수준 추적했으며, 특히 공이 화면에 거의 보이지 않을 때도 연속 프레임을 통한 궤적 예측으로 위치를 복원했다.
**6. 논의 및 한계**
TrackNet은 (1) 단일 공이 존재한다는 전제, (2) 라벨링 비용이 높아 데이터 확장이 어려운 점, (3) 현재는 2D 히트맵 기반이므로 3D 좌표 복원에 한계가 있다는 점을 인정한다. 또한, 실시간 스트리밍 적용을 위해 모델 경량화와 하드웨어 최적화가 필요하다. 향후 연구 방향으로는 멀티 객체 추적, 3D 궤적 재구성, 그리고 Transformer 기반 시계열 모델과의 하이브리드 구조를 제안한다.
**7. 결론**
TrackNet은 저해상도·저프레임 영상에서도 고속·소형 공을 높은 정확도로 추적할 수 있는 실용적인 솔루션이다. 연속 프레임을 활용한 궤적 학습, VGG‑16 기반 강력한 특징 추출, FCN 기반 히트맵 생성이라는 세 가지 핵심 기술이 결합돼 기존 이미지 처리 기반 방법보다 월등히 높은 성능을 보였다. 데이터셋과 데모 영상이 공개되어 연구 재현성이 확보됐으며, 향후 다양한 스포츠와 실시간 응용 분야로 확장 가능성이 크다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기