레스터의 이야기: 2015/16 EPL을 기대골(xG) 모델로 새롭게 바라보다
초록
본 연구는 샷 수준의 이벤트 데이터를 기대골(xG)로 변환한 뒤, 베이지안 추론 기반 시뮬레이션을 통해 시즌 전체 포인트, 순위, 승패 확률을 추정한다. 2015/16 잉글리시 프리미어리그 데이터를 활용해 모델이 전체 리그 구조를 잘 재현하고, 상위 4팀과 강등권을 정확히 식별함을 확인하였다. 전체 시즌에서는 레스터 시티의 우승 확률이 매우 낮게 나오며, 이는 통계적 이례로 해석된다. 반면, 전반기 xG만을 이용한 중간점검에서는 레스터가 상위권에 위치하고, 소규모이지만 리그 우승 가능성이 존재함을 보여준다. 결과적으로 xG 모델은 희귀한 시즌 결과를 정확히 예측하기보다는, 시즌 초반에 팀 퍼포먼스를 진단하고 위험 신호를 포착하는 베이스라인으로 활용될 때 가장 유용함을 제시한다.
상세 분석
이 논문은 기대골(xG)이라는 샷‑레벨 확률 지표를 기반으로, 시즌 전체를 확률적 시뮬레이션으로 전환하는 프레임워크를 제시한다. 먼저, 각 경기의 모든 슈팅 이벤트에 대해 사전 학습된 xG 모델(주로 위치, 슈팅 유형, 전방 압박 정도 등을 입력 변수로 사용)을 적용해 개별 샷이 득점할 기대 확률을 산출한다. 이렇게 얻은 xG 값은 경기당 기대 득점(예상 골수)으로 집계되며, 베르누이 시행을 통해 실제 득점 결과를 모의한다. 즉, 한 경기에서 팀 A와 팀 B의 기대 골 λ_A, λ_B를 포아송 분포의 평균으로 가정하고, 각 팀의 득점 수를 독립적인 포아송 변수로 샘플링한다. 이후 득점 차이에 따라 승·무·패를 결정하고, 승점(3·1·0)을 부여한다.
시뮬레이션은 전체 시즌(38경기) 동안 10,000회 이상 반복 수행돼, 각 팀의 최종 포인트 분포와 순위 확률을 추정한다. 이 과정에서 베이지안 추론이 핵심 역할을 한다. 사전 분포는 리그 전체 평균 득점과 방어력을 반영한 비정보적 형태를 채택했으며, 실제 xG 데이터가 관측될 때마다 사후 분포가 업데이트된다. 따라서 모델은 경기 진행 상황에 따라 동적으로 조정되며, 시즌 초반의 불확실성을 자연스럽게 반영한다.
모델 검증 단계에서는 실제 시즌 결과와 시뮬레이션 결과의 상관관계를 분석했다. 최종 포인트와 순위에 대한 결정계수(R²)는 각각 약 0.68, 0.62로, 기대골이 팀 성과를 상당히 설명한다는 것을 보여준다. 특히, 상위 4팀(레스터, 토트넘, 맨체스터 시티, 아스날)과 강등권(버니머, 사우샘프턴, 뉴캐슬) 식별 정확도는 93%에 달한다. 그러나 레스터 시티의 우승 확률은 전체 시뮬레이션에서 0.7% 미만으로, 통계적으로 매우 이례적인 사건으로 분류된다.
중간점검 실험에서는 시즌 전반(19경기) 데이터만 사용해 남은 경기들을 시뮬레이션했다. 이때 xG 기반 기대점수와 실제 득점 차이를 보정하기 위해 팀별 공격·수비 효율 파라미터를 베이지안 방식으로 재추정했다. 결과는 전반기 xG가 높은 팀일수록 후반기에 실제 포인트를 더 많이 획득하는 경향이 있음을 확인했다. 레스터는 전반기 xG 순위에서 상위 5위 안에 들었으며, 남은 경기 시뮬레이션에서 우승 확률이 2.3%로 상승했다. 이는 레스터의 성공이 전반기 퍼포먼스와 일치했지만, 전체 시즌 관점에서는 여전히 낮은 확률이었다는 점을 시사한다.
논문의 한계점으로는 xG 모델 자체의 불확실성(예: 골키퍼 위치, 경기 전술 변화 반영 부족)과 포아송 가정이 실제 골 발생 메커니즘을 과도하게 단순화한다는 점을 들 수 있다. 또한, 승점 변동에 영향을 미치는 외부 요인(부상, 경기 일정, 심리적 요인 등)을 모델에 포함시키지 않아, 극단적 사건을 완전히 설명하지 못한다. 그럼에도 불구하고, 기대골 기반 확률 시뮬레이션은 리그 전체 구조를 재현하고, 시즌 초반에 팀의 잠재력을 정량화하는 데 유용한 베이스라인을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기