음향 이벤트 탐지를 통한 스포츠 하이라이트 생성 럭비 사례 연구

초록

본 논문은 오디오 신호만을 이용해 럭비 경기 방송에서 핵심 순간을 자동으로 추출하는 시스템을 제안한다. 언어에 구애받지 않는 다단계 분류 파이프라인으로 스크럼, 태클, 관중 환호 등 주요 음향 이벤트를 검출하고, 검출된 이벤트를 기반으로 하이라이트 클립을 생성한다. 객관적인 평가와 사용자 설문 결과, 제안 시스템이 높은 정확도와 실시간 처리 능력을 보이며 실제 시청자 만족도도 크게 향상시킴을 확인하였다.

상세 분석

이 연구는 기존 영상 기반 하이라이트 생성 방식이 갖는 고비용·고복잡도 문제를 회피하고, 오디오만으로도 충분히 의미 있는 스포츠 순간을 포착할 수 있음을 실증한다. 먼저, 저작권 문제와 다국어 자막 처리의 어려움을 최소화하기 위해 ‘언어 독립적’ 접근을 채택했으며, 이는 음향 이벤트 자체가 경기의 물리적·사회적 맥락을 반영한다는 가정에 기반한다. 시스템은 크게 세 단계로 구성된다. 1) 전처리 단계에서는 방송 음원을 16 kHz로 재샘플링하고, 프레임 단위(25 ms, 10 ms 오버랩)로 나눈 뒤, 멜 스펙트로그램과 MFCC, 스펙트럴 플럭스 등 40차원의 특징 벡터를 추출한다. 2) 이벤트 검출 단계에서는 두 개의 이진 분류기를 순차적으로 적용한다. 첫 번째는 ‘스포츠 특유의 고에너지 사운드(스크럼, 충돌 등)’를 구분하기 위해 경량 CNN을 사용하고, 두 번째는 ‘관중 환호·앵커 해설·음악’ 등 배경음과 구분하기 위해 LSTM 기반 시계열 모델을 도입한다. 각 모델은 교차 검증을 통해 최적의 하이퍼파라미터를 선정했으며, 데이터 불균형을 완화하기 위해 SMOTE와 가중치 손실 함수를 병행 적용하였다. 3) 하이라이트 생성 단계에서는 검출된 이벤트의 타임스탬프를 기준으로 전후 5 초씩을 포함한 클립을 추출하고, 이벤트 종류별 가중치를 부여해 최종 하이라이트 순위를 산정한다. 평가에서는 10경기의 실제 방송을 사용해 정밀도·재현율·F1-score를 측정했으며, 전체 평균 F1이 0.87에 달했다. 또한, 150명의 시청자를 대상으로 한 설문에서는 ‘하이라이트의 적시성’과 ‘관람 만족도’가 기존 영상 기반 시스템 대비 각각 23%와 19% 상승한 것으로 나타났다. 한계점으로는 매우 조용한 경기 구간에서 이벤트 검출이 어려워 false negative이 증가할 수 있다는 점과, 오디오 품질이 낮은 경우 특징 추출이 불안정해진다는 점을 들었다. 향후 연구에서는 멀티모달(오디오·비디오·텍스트) 융합과 실시간 스트리밍 환경에서의 지연 최소화를 목표로 할 예정이다.