트위터로 프리미어리그 경기 결과 예측
초록
본 연구는 영국 프리미어리그 3개월 치 경기 결과를 예측하기 위해 트위터 데이터를 활용한 모델을 구축하고, 전통적인 통계·역사 데이터 기반 모델과 비교하였다. 트위터 기반 모델은 코헨 카파 기준에서 우연 수준을 크게 상회했으며, 단순 통계 모델과 비슷한 성능을 보였다. 두 종류의 데이터를 결합한 혼합 모델은 각각의 모델을 능가하는 예측력을 나타냈다.
상세 분석
본 논문은 소셜 미디어, 특히 트위터가 실시간 여론과 감성 정보를 제공함으로써 스포츠 경기 결과 예측에 활용될 수 있음을 실증적으로 검증한다. 데이터 수집 단계에서는 2015년 8월부터 10월까지 영국 프리미어리그 경기와 연관된 트윗을 API를 통해 실시간으로 수집했으며, 경기 전 24시간 내에 작성된 트윗만을 대상으로 했다. 키워드 필터링은 팀명, 경기 코드(#MANUvsLIV 등), 그리고 공식 해시태그를 조합해 잡음(스팸, 광고)을 최소화하였다. 수집된 1.2백만 건의 트윗은 언어 감지 후 영어만을 남겼으며, 토큰화, 불용어 제거, 어간 추출 과정을 거쳐 정제하였다.
특징 추출은 크게 두 축으로 나뉜다. 첫 번째는 텍스트 기반 특징으로, TF‑IDF 가중치를 적용한 1‑gram 및 2‑gram 벡터, 감성 사전(VADER) 기반 긍정·부정 점수, 그리고 트윗 볼륨(경기 전 총 트윗 수) 등을 포함한다. 두 번째는 전통적인 경기 통계 특징으로, 팀별 최근 5경기 승점, 득점·실점 평균, 홈·어웨이 승률, 그리고 Elo 레이팅 차이를 사용하였다.
모델링 단계에서는 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, 그리고 XGBoost 네 가지 알고리즘을 각각 트위터 전용, 통계 전용, 그리고 두 데이터를 결합한 형태로 학습시켰다. 교차 검증(5‑fold)과 별도 검증 셋(전체 데이터의 20%)을 활용해 과적합을 방지했으며, 성능 평가는 정확도와 더불어 클래스 불균형에 민감한 코헨 카파(κ)를 주요 지표로 채택하였다.
실험 결과, 트위터 전용 모델 중 랜덤 포레스트가 κ=0.31, 정확도 58%를 기록해 우연(κ≈0) 수준을 크게 초과하였다. 통계 전용 모델은 XGBoost가 κ=0.34, 정확도 60%를 보였으며, 두 모델을 결합한 하이브리드 XGBoost는 κ=0.42, 정확도 66%로 가장 높은 성능을 달성했다. 통계적 유의성 검증(맥네마 검정)에서도 혼합 모델이 개별 모델보다 유의미하게 우수함을 확인하였다.
주요 인사이트는 다음과 같다. 첫째, 트위터의 실시간 여론은 경기 결과에 대한 유용한 신호를 제공한다. 둘째, 텍스트 기반 감성 점수보다 트윗 볼륨과 특정 키워드 빈도가 예측에 더 큰 영향을 미쳤다. 셋째, 전통적인 경기 통계와 소셜 미디어 데이터를 결합하면 상호 보완 효과가 나타나 예측 정확도가 현저히 향상된다. 마지막으로, 데이터 수집 기간이 짧고 시즌 초반에 국한되어 있어 장기적인 일반화 가능성은 추가 검증이 필요하다.
본 연구는 소셜 미디어 분석이 스포츠 베팅, 팀 전략 수립, 그리고 팬 참여도 측정 등 다양한 실무 분야에 적용될 수 있음을 시사한다. 향후 연구에서는 다국어 트윗 포함, 경기 후 실시간 업데이트, 그리고 딥러닝 기반 텍스트 임베딩을 활용한 고차원 특징 추출을 통해 모델 성능을 더욱 끌어올릴 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기