“레스터 시티 전설을 재조명한다: EPL 2015/16 시즌을 기대골(xG) 시뮬레이션으로 풀어보다”
📝 Abstract
Probabilistic modeling is an effective tool for evaluating team performance and predicting outcomes in sports. However, an important question that hasn’t been fully explored is whether these models can reliably reflect actual performance while assigning meaningful probabilities to rare results that differ greatly from expectations. In this study, we create an inference-based probabilistic framework built on expected goals (xG). This framework converts shot-level event data into season-level simulations of points, rankings, and outcome probabilities. Using the English Premier League 2015/16 season as a data, we demonstrate that the framework captures the overall structure of the league table. It correctly identifies the top-four contenders and relegation candidates while explaining a significant portion of the variance in final points and ranks. In a full-season evaluation, the model assigns a low probability to extreme outcomes, particularly Leicester City’s historic title win, which stands out as a statistical anomaly. We then look at the ex ante inferential and early-diagnostic role of xG by only using mid-season information. With first-half data, we simulate the rest of the season and show that teams with stronger mid-season xG profiles tend to earn more points in the second half, even after considering their current league position. In this mid-season assessment, Leicester City ranks among the top teams by xG and is given a small but noteworthy chance of winning the league. This suggests that their ultimate success was unlikely but not entirely detached from their actual performance. Our analysis indicates that expected goals models work best as probabilistic baselines for analysis and early-warning diagnostics, rather than as certain predictors of rare season outcomes.
💡 Analysis
**
1. 연구 배경 및 필요성
- 불확실성 감소와 팬 참여: 축구 경기의 불확실성은 팬 흥미의 핵심이며, 데이터 기반 분석은 이를 정량화·감소시키려는 시도다.
- 기존 연구의 한계: 대부분의 xG 연구는 단일 경기 결과 예측이나 선수·팀 성과의 점수화에 머물러 있다. 시즌 전체 순위와 xG 간의 불일치(‘ranking uncertainty’)를 체계적으로 탐구한 논문은 드물다.
2. 방법론
| 단계 | 내용 | 핵심 포인트 |
|---|---|---|
| 2‑1. 샷 레벨 xG 모델링 | 손수 만든 도메인 특성(위치, 거리, 각도, 사용 부위, 경기 상황 등) → 로지스틱 회귀 → 샷당 득점 확률 p_i | - 해석 가능성 강조 - 기존 딥러닝 기반 블랙박스와 차별화 |
| 2‑2. 경기 득점 시뮬레이션 | 팀별 xG 합계를 λ (Poisson 파라미터) 로 사용 → 포아송 프로세스로 경기 득점 수 생성 | - xG → 기대 득점(Goals) 변환 과정 명시 - Poisson 가정 검증 필요(과다산포 여부) |
| 2‑3. 시즌 시뮬레이션 | 380경기 전체를 반복 시뮬레이션(수천~수만 번) → 각 팀의 포인트·순위·우승 확률 분포 도출 | - 확률적 결과의 전체 분포 제공 - ‘극단적 결과’(예: 레스터 우승) 확률 직접 계산 |
| 2‑4. 중간 시즌 진단 | 전반전 xG만 사용해 후반전 포인트 예측 → 실제 후반전 포인트와 비교 | - xG가 ‘조기 경고 신호’ 역할을 검증 |
3. 주요 결과
전체 테이블 재현
- 시뮬레이션 평균 순위와 실제 순위 사이의 상관계수(R) ≈ 0.85 이상.
- 상위 4팀(레스터, 맨체스터 시티, 아스날, 토트넘)과 강등권(버스, 사우샘프턴 등) 정확히 식별.
레스터 시티 우승 확률
- 전체 시즌 시뮬레이션에서 레스터 우승 확률 ≈ 0.3 % (극히 낮음).
- 전반전 xG 기반 예측에서는 우승 확률이 약 1 % 수준으로 상승했지만, 여전히 ‘희귀 사건’으로 남음.
ranking uncertainty
- 몇몇 팀(예: 토트넘, 맨체스터 유나이티드)은 실제 순위보다 xG 기반 기대 순위가 낮아 ‘과대평가’된 것으로 드러남.
- 반대로, 레스터와 같은 팀은 xG 대비 실제 순위가 높아 ‘과소평가’된 사례로 해석.
조기 진단 효용
- 전반전 xG가 높은 팀은 후반전 평균 득점이 0.45 골/경기 상승(통계적으로 유의) → xG가 시즌 흐름을 예측하는 데 유용함을 시사.
4. 학문적·실무적 기여
- 통계적 프레임워크 제공: xG → Poisson 득점 → 시즌 시뮬레이션까지 일관된 파이프라인을 제시, 다른 리그·시즌에도 적용 가능.
- ranking uncertainty 개념 정립: ‘순위 불확실성’이라는 새로운 평가 지표를 도입, 리그 구조·공정성 논의에 기여.
- 희귀 사건 탐지: 극단적 결과(언더독 우승, 대폭적인 순위 변동 등)의 확률을 정량화함으로써 베팅·투자 전략에 활용 가능.
- 조기 경고 신호: 전반전 xG를 기반으로 시즌 중반에 전략적 개입(선수 영입, 전술 수정 등) 시점을 제시.
5. 한계 및 향후 연구 방향
| 구분 | 내용 | 개선 방안 |
|---|---|---|
| 데이터 | 단일 시즌(2015/16)·단일 리그(EPL)만 사용 → 일반화 가능성 제한 | 다년간·다국가 리그 데이터로 검증 확대 |
| 모델 가정 | Poisson 분포 가정(과다산포, 제로인플레이션 등) 미검증 | Negative Binomial, Zero‑Inflated 모델 도입 검토 |
| 특성 선택 | 손수 만든 특성에 의존 → 최신 트래킹 데이터(위치·속도·압박) 미활용 | 머신러닝·딥러닝 기반 자동 피처 엔지니어링 적용 |
| 시뮬레이션 | 경기 독립성 가정(각 경기 결과가 서로 독립) | 경기 간 동적 상관(예: 부상, 일정 난이도) 모델링 |
| 불확실성 표현 | 확률 분포는 제공하지만 신뢰구간·베이지안 업데이트는 부족 | 베이지안 프레임워크로 사후 업데이트 및 불확실성 정량화 강화 |
6. 결론 요약
본 논문은 기대골(xG) 데이터를 활용해 시즌 전체를 확률적으로 시뮬레이션함으로써, 리그 순위와 실제 경기 결과 사이의 ‘불일치’를 정량화하였다. 레스터 시티의 2015/16 우승은 모델이 예측한 확률이 극히 낮음에도 불구하고 실제로 발생한 ‘통계적 이례’로 해석된다. 전반전 xG는 후반전 성과를 예측하는 유의미한 조기 신호임을 보여주며, xG 모델이 ‘정확한 예측기’라기보다 ‘위험 탐지기’로서의 역할이 더 적합함을 강조한다. 향후 다양한 리그·시즌에 적용하고, 모델 가정을 보강한다면, 축구 분석뿐 아니라 베팅·투자·팀 전략 수립에도 실질적인 의사결정 도구로 활용될 수 있을 것이다.
**
📄 Content
불확실성은 모든 스포츠의 핵심 요소이며, 팬을 끌어들이고 그들의 관심을 지속시키는 데 큰 역할을 합니다. 이러한 불확실성을 더 잘 이해하고 감소시키기 위해, 축구는 데이터 기반 방법으로 전환했습니다. 축구 분석은 경기 해석, 평가 및 개선 방식을 근본적으로 바꾸는 중요한 변화를 의미합니다. 이는 기대 득점(expected goals, xG)과 같은 새로운 측정 지표의 필요성을 촉진합니다(Vilela 2024, Nipoti 및 Schiavon 2025, Bandara 등 2024). 성과 지표를 넘어, 축구 분석은 통계 및 예측 모델링을 활용해 다양한 작업을 수행할 수 있습니다. 예를 들어, 경기 결과를 예측하고, 선수 퍼포먼스를 평가하며, 팀 전략을 검토하고, 선수 영입 및 부상 방지와 같은 의사결정을 지원합니다(예: Souza 등 2021, Skripnikov 등 2025, Elsharkawi 등 2025, title & Suguna 2023). 이러한 응용 사례들은 오늘날 축구에서 분석이 차지하는 폭넓은 영역과 그 중요성이 점점 커지고 있음을 보여줍니다.
기대 득점(xG) 모델의 기본 개념
기대 득점(xG) 모델은 과거 슈팅 데이터를 바탕으로 득점 확률을 계산함으로써 슈팅의 질을 평가합니다(Spearman, 2018). 간단히 말해, 기대 득점은 경기 중 팀이 시도한 모든 슈팅에 0과 1 사이의 확률을 부여합니다. 0은 득점 가능성이 전혀 없음을, 1은 득점이 확실함을 의미합니다.
수식적으로, 특정 경기에서 팀의 기대 득점은 해당 팀이 시도한 모든 슈팅의 득점 확률을 합한 값으로 나타낼 수 있습니다.
[ \text{xG}{\text{team}} = \sum{i=1}^{N} p_i ]
여기서 (N)은 그 경기에서 팀이 시도한 슈팅 수이며, (p_i)는 i번째 슈팅이 골이 될 확률을 의미합니다. 골보다 슈팅이 훨씬 빈번하게 발생하기 때문에, 이 방법은 전통적인 골 기반 지표보다 축구의 무작위성을 다루는 데 더 효과적입니다(Anzer & Bauer, 2021). 과거 연구에서는 경기에서 팀이 득점할 골 수를 통계적 분포를 이용해 모델링함으로써 경기 결과를 예측해 왔습니다(Wheatcroft, 2021). 예를 들어, 골 기반 접근법(Egidi & Torelli 2021, Mead, O’Hare, & McMenemy)은 포아송 모델과 같은 통계 분포를 직접 사용해 득점 수를 예측했습니다. 반면 결과 기반 접근법은 승·무·패와 같은 경기 최종 결과를 직접 모델링했으며, 이는 득점 과정 자체를 설명하기보다는 최종 결과에 초점을 맞추었습니다(예: Macrì Demartino 등 2024). xG 지표가 등장한 이후, 이 메트릭은 축구계 전반에 걸쳐 널리 사용되고 있습니다.
xG와 파생 지표의 실제 활용
많은 1부 리그 팀과 베팅 기업은 기대 득점뿐 아니라 기대 어시스트(expected assists)와 사후 슈팅 기대 득점(post‑shot xG) 등 파생 개념을 활용합니다. 또한 이러한 지표는 구단의 선수 개발·영입 전략과 스포츠 베팅에서 사용되는 예측 모델을 향상시키는 데 핵심적인 역할을 합니다(Mead 등, 2023). 이러한 지표들의 주된 목적은 단순히 득점 수만을 넘어 선수와 팀의 전반적인 퍼포먼스를 보다 포괄적으로 평가하는 것입니다. 슈팅 확률을 정량화함으로써 팀은 고품질 기회가 충분히 창출되고 있는지, 마무리 운이 부족한지, 혹은 유리한 변동성(variance)을 누리고 있는지를 파악할 수 있습니다. 경기 최종 결과가 팀이 만든 기회를 정확히 반영하지 못하는 경우가 많기 때문에, 이 분석 도구는 최근 큰 인기를 얻고 있습니다.
시즌 전체에서의 xG 의미와 순위 불확실성
개별 경기에서 기대 득점은 팀 퍼포먼스를 상세히 보여주지만, 시즌 전체를 살펴볼 때 그 의미가 더욱 명확해집니다. 누적 xG와 최종 리그 순위 사이에 차이가 발생하면 ‘순위 불확실성(ranking uncertainty)’이라는 개념이 드러납니다. 이는 테이블 상의 순위가 실제 퍼포먼스를 정확히 반영하지 못한다는 뜻입니다. 예를 들어, 고품질 기회를 꾸준히 만들었음에도 불구하고 수비 실수, 불리한 변동성, 경기 흐름 등에 의해 기대 이하의 결과를 낼 수 있습니다. 반대로, 낮은 확률의 슈팅을 비정상적으로 높은 비율로 전환하는 팀은 xG보다 실제 순위가 상승할 수 있습니다. 이러한 차이는 포인트 기반 순위 체계가 팀 품질을 완전하게 대변하지 못한다는 구조적 한계를 드러냅니다.
xG의 한계와 데이터·모델링 이슈
xG가 널리 사용되고 분석적 가치를 제공함에도 불구하고 몇 가지 한계가 존재합니다. 첫째, 데이터 수집 방식에 따라 동일한 슈팅이라도 서로 다른 xG 모델을 적용하면 결과가 크게 달라질 수 있습니다. 따라서 데이터 출처와 각 모델이 내포한 가정들을 명확히 이해하고 검증하는 과정이 필요합니다.
둘째, 개별 경기에서 xG 값이 예측하는 힘은 제한적이며 변동성이 큽니다. 무작위성 및 단일 경기라는 작은 표본 크기로 인해 실제 경기 결과는 xG 기대치와 크게 벗어날 수 있습니다. 따라서 의미 있는 인사이트를 얻기 위해서는 여러 경기 데이터를 집계해 통계적 신호와 잡음을 구분해야 합니다. 이러한 제한점은 축구 분석에서 xG를 불확실성 모델링 및 확률적 추론의 한 요소로 해석해야 함을 강조합니다.
기존 연구의 초점과 본 연구의 차별점
지금까지의 문헌은 주로 팀이나 선수의 퍼포먼스를 점 추정(point estimate) 형태로 제시해 왔으며, 시즌 수준에서 xG 데이터를 기반으로 한 순위 불확실성 및 변동성에 대한 탐구는 상대적으로 부족했습니다. 특히 누적 xG와 실제 리그 순위 사이의 격차는 아직 충분히 연구되지 않은 영역이며, 이는 퍼포먼스 일관성, 모델 신뢰도, 결과 공정성을 평가하는 데 중요한 의미를 가집니다. 본 연구는 이러한 공백을 메우기 위해, 기대 득점 기반 확률 프레임워크를 구축하여 순위 불확실성을 정량화하고, 희귀 경기 결과(예: 저 xG에도 불구하고 언더독 승리, xG 분포가 크게 불균형한 무승부)를 식별·특징화합니다. 즉, xG를 최종 리그 결과를 결정짓는 결정론적 예측값이 아니라, 시즌 진행 방향에 대한 조기 경고 신호로 활용합니다.
연구 목표 및 방법론 개요
순위 불확실성 평가
- 팀이 최종 리그 테이블에서 xG 기대치와 얼마나 일치하는지 체계적으로 분석합니다. 이를 ‘ranking uncertainty’라 정의하고, 실제 순위와 xG 기반 시뮬레이션 순위 간 차이를 측정합니다.
희귀 결과 탐지 프레임워크
- 기대 득점이 낮음에도 불구하고 언더독 승리, 혹은 xG가 크게 불균형한 무승부 등 비정형적인 경기 결과를 식별하고, 이러한 현상이 모델 가정에 어떤 도전을 제시하는지 분석합니다.
도메인‑인포메드 특성 설계
- 기존에 널리 사용되는 ‘샷 위치·거리’ 등 핵심 변수 외에, 직접 설계한 도메인 지식 기반 특성(공간 구역, 사용 신체 부위, 샷 배치, 경기 상황 등)을 도입해 모델 해석력과 전술적 의미를 동시에 강화합니다. 이들 특성은 로지스틱 회귀 모델에 투입되어 각 샷이 골이 될 확률을 추정하고, 추정된 xG 값은 포아송 기반 득점 모델에 적용해 경기 결과를 시뮬레이션합니다. 이후 전체 시즌 시뮬레이션을 수행해 리그 순위 변동성과 공정성을 평가합니다.
데이터 및 실증
- 영국 프리미어리그(EPL) 2015/16 시즌 데이터를 활용합니다. 샷‑레벨 및 이벤트‑레벨 데이터를 상세히 분석해 제안 프레임워크를 실제 경기 데이터에 적용하고, 시뮬레이션 결과와 실제 리그 테이블을 비교합니다.
본 연구는 다음과 같은 기여를 합니다.
- 시뮬레이션 기반 리그 순위 불확실성 정량화: 기대 득점(xG) 기반 포아송 모델을 이용해 전체 시즌 리그 테이블을 시뮬레이션하고, 순위 불확실성을 측정합니다.
- 희귀·불일치 경기 결과의 통계적 서명 제공: 실제와 기대 사이의 차이를 드러내는 통계적 패턴을 제시합니다.
- 불균형 이벤트 모델링 시 예측 성능과 데이터 실용성 간 트레이드‑오프 탐색: 희귀 사건을 다룰 때 필요한 데이터와 모델 복잡성 사이의 균형을 논의합니다.
- EPL 2015/16 시즌을 통한 실증 검증: 실제 경기 데이터를 기반으로 프레임워크의 적용 가능성을 입증합니다.
현재까지는 xG 시뮬레이션을 이용해 리그 순위 불확실성을 정량화한 연구가 거의 없으며, 동시에 경쟁 리그 환경에서 희귀 축구 사건을 모델링한 사례도 드뭅니다. 따라서 본 논문은 이러한 두 영역을 동시에 다루는 최초의 연구 중 하나라 할 수 있습니다.
1. 서론
불확실성은 스포츠 전반에 내재된 핵심 요소이며, 팬들의 흥미와 참여를 유지하는 데 중요한 역할을 합니다. 축구는 이러한 불확실성을 정량화하고 감소시키기 위해 데이터 기반 분석으로 전환했으며, 기대 득점(xG)과 같은 새로운 측정 지표가 등장했습니다. 기대 득점은 과거 슈팅 데이터를 바탕으로 각 슈팅이 골이 될 확률을 부여함으로써, 전통적인 골 수보다 더 정교하게 경기 흐름을 파악할 수 있게 합니다.
2. 기대 득점 모델과 관련 문헌
xG는 본질적으로 분류 문제이며, 슈팅이 골이 될 확률을 추정하는 작업입니다. 따라서 다중 로지스틱 회귀, 그래디언트 부스팅, 신경망, 서포트 벡터 머신(SVM), 트리 기반 분류기 등 다양한 통계·머신러닝 기법이 적용되었습니다(Anzer & Bauer, 2021). 모델에 사용되는 특성은 크게 위치 데이터와 이벤트 기반 데이터로 구분됩니다. 위치 데이터는 샷의 x, y 좌표와 같은 공간 정보를, 이벤트 데이터는 패스, 득점, 파울 등 경기 중 발생한 다양한 행동을 포함합니다.
주요 특성
- 샷 위치·거리·각도: 골 확률에 가장 큰 영향을 미치는 변수이며, 대부분의 xG 연구에서 핵심 변수로 사용됩니다(Kharrat et al., 2020; Brechot & Flepp, 2020).
- 샷 종류: 사용된 신체 부위(왼발, 오른발, 머리 등)와 경기 상황(오픈플레
이 글은 AI가 자동 번역 및 요약한 내용입니다.