축구 경기 예측 가능성 증가: 26년간 88 000경기 네트워크 분석
본 연구는 1993‑2019년 사이 11개 유럽 주요 리그의 87 816경기를 대상으로, 단순한 네트워크 기반 예측 모델을 이용해 경기 결과의 예측 가능성을 정량화하였다. AUC 점수와 Gini 계수를 연도별로 추적한 결과, 대부분의 리그에서 예측 정확도가 상승하고 팀 간 점수 불평등이 심화되었으며, 홈필드 어드밴티지도 지속적으로 감소함을 확인하였다.
저자: Victor Martins Maimone, Taha Yasseri
이 논문은 “축구가 점점 더 예측 가능해지고 있다”는 가설을 검증하기 위해, 1993‑2019년 기간 동안 11개 주요 유럽 리그(벨기에, 영국, 프랑스, 독일, 그리스, 이탈리아, 네덜란드, 포르투갈, 스코틀랜드, 스페인, 터키)에서 총 87 816경기의 데이터를 수집·분석하였다. 데이터는 football-data.co.uk에서 추출했으며, 각 경기의 날짜, 홈·원정 팀, 최종 득점, 그리고 Bet365 베팅 배당을 포함한다. 전체 경기에서 평균 득점은 2.7골이며, 무승부 비율은 시간에 따라 크게 변동하지 않거나 약간 감소하는 수준이다.
예측 모델은 두 단계로 구성된다. 첫 번째는 ‘Dyadic Score’라는 간단한 지표로, 각 팀이 최근 n경기(시즌당 경기수 T에 비례)에서 획득한 포인트를 최대 가능 포인트로 나눈 비율을 사용한다. 두 번째는 이 한계를 보완하기 위해 ‘Network Model’을 도입한다. 여기서는 승자에게 승자‑패자 간 포인트를 가중치로 하는 방향성 간선을 부여한 전체 경기 네트워크를 구축하고, eigenvector centrality를 각 팀의 강도 점수로 계산한다. 두 점수 차이를 입력 변수로 로지스틱 회귀(시그모이드 함수) 모델을 학습시켜, 홈팀 승리 확률을 추정한다. 모델 성능 평가는 ROC 곡선 아래 면적(AUC)과 Brier score를 사용했으며, 베팅 시장의 암시적 확률(Bet365 배당)도 벤치마크로 제시하였다.
연도별 AUC 추세를 시각화한 결과, 영국, 독일, 포르투갈, 스페인 등 주요 리그는 초기 10년 대비 최근 10년 동안 AUC가 유의하게 상승했으며, 대부분의 리그가 약 0.75 수준으로 수렴한다. 통계적 검증을 위해 첫 10년과 마지막 10년을 각각 t‑검정과 Kolmogorov‑Smirnov(KS) 검정으로 비교했으며, p‑값이 0.05 이하인 경우가 다수였다. 반면, 그리스, 이탈리아, 네덜란드 등 일부 주변 리그는 예측 정확도가 크게 변동하지 않거나 약간 감소하는 경향을 보였다.
팀 간 불평등 정도는 시즌 종료 시 각 팀이 획득한 포인트 분포의 Gini 계수로 측정하였다. 결과는 부유한 리그일수록 Gini가 높아지는 양상을 보였으며, 특히 포르투갈(>0.6)과 스페인에서 불평등이 뚜렷했다. AUC와 Gini 사이의 상관계수는 리그별로 0.41~0.87에 이르렀으며, 이는 경기 결과가 더 예측 가능해질수록 승자와 패자 간 격차가 확대된다는 ‘축구의 젠트리피케이션’ 현상을 뒷받침한다.
홈필드 어드밴티지는 모델 파라미터 µ(시그모이드의 수평 이동)와 실제 경기 데이터(홈·원정 득점 비율) 두 가지 방법으로 측정되었다. 영국 프리미어리그를 예시로 하면, µ값이 0에서 음수 방향으로 이동하면서 홈팀 승률이 감소했으며, 전체 리그에서도 홈팀이 차지하는 승점 비중이 지속적으로 낮아졌다. 저자들은 이러한 현상이 (1) 외국인 선수 비중 증가로 인한 팀 전술·전력의 국제화, (2) 관중 수 감소와 경기장 이동성 확대, (3) 강팀이 홈·원정 구분 없이 승리 확률이 높아지는 구조적 변화 등으로 설명한다.
연구의 제한점으로는 무승부를 제외함으로써 전체 경기 결과 분포를 완전하게 반영하지 못한 점, 베팅 시장 배당을 확률로 전환하는 과정에서 마진과 베팅 행동에 따른 왜곡 가능성, 그리고 11개 리그만을 대상으로 하여 전 세계 축구 현상을 일반화하기엔 표본 편향이 존재한다는 점을 들었다. 또한, 데이터 양과 모델 복잡성을 의도적으로 제한했기 때문에 최신 머신러닝 기반 예측 모델과 직접 비교는 어려웠다.
결론적으로, 26년간의 장기 데이터를 네트워크 과학적 관점에서 분석한 결과, 주요 유럽 리그에서 경기 결과가 점점 더 예측 가능해지고, 팀 간 점수 불평등이 심화되며, 홈필드 어드밴티지가 감소하는 추세가 확인되었다. 향후 연구에서는 (1) 재정적 변수(수익, 급여, TV 계약 등)와 예측 가능성 사이의 인과관계를 정량화, (2) UEFA 챔피언스리그와 같은 대륙 간 대회를 포함한 데이터 확대, (3) 급여 상한제가 적용되는 NBA와 같은 리그와의 비교 분석을 통해 ‘돈이 축구의 서프라이즈 요소에 미치는 영향’을 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기