축구 경기 예측의 최적화

초록

이 논문은 득점 기회 데이터가 실제 경기 결과보다 예측에 훨씬 유용함을 보이고, 다변량 회귀 모델을 통해 정보량이 늘어날수록 예측 정확도가 향상된다는 것을 실증한다. 또한 경기의 체계적 요소와 무작위 요소를 분리해 최적의 예측 가능 수준을 정의하고, 이를 독일 분데스리가 데이터에 적용한다.

상세 분석

논문은 먼저 기존의 승패·득점 결과만을 이용한 예측이 한계가 있음을 지적하고, 경기 전후에 기록되는 ‘득점 기회(chances for goals)’라는 변수가 실제 득점보다 경기 흐름을 더 정밀히 반영한다는 사실을 실증한다. 이를 위해 저자들은 각 팀의 공격·수비 기회 수치를 정량화하고, 시즌 초반과 중반에 축적된 데이터 양을 비교한다. 데이터 양이 증가할수록 회귀 분석의 설명력(R²)이 급격히 상승하는데, 이는 정보량이 충분히 확보될 때 모델이 체계적 요인을 더 정확히 포착한다는 의미다.

다변량 회귀 모델은 팀별 공격력과 수비력을 독립 변수로, 실제 득점 차이를 종속 변수로 설정한다. 모델 파라미터는 최소제곱법으로 추정되며, 두 개의 핵심 파라미터—정보증폭 계수와 무작위 변동 계수—만으로 예측 정확도를 완전히 기술할 수 있다. 정보증폭 계수는 득점 기회 데이터가 얼마나 효율적으로 득점 결과에 매핑되는지를 나타내고, 무작위 변동 계수는 경기 중 발생하는 불확실성(예: 골키퍼 실수, 심판 판정)을 정량화한다.

또한 저자들은 경기 결과를 체계적 성분과 무작위 성분으로 분해한다. 체계적 성분은 팀의 내재된 실력 차이와 전술적 특성으로 설명되며, 무작위 성분은 외부 요인과 순간적인 변동으로 모델링된다. 이 분해를 통해 ‘예측 가능성의 최적점(optimum predictability)’을 정의한다. 즉, 정보량이 충분히 많아 체계적 성분을 완전히 포착했을 때에도 남는 오차는 무작위 성분에 한정되며, 이때 모델의 예측 한계가 명확히 드러난다.

실증 분석은 독일 분데스리가 10시즌(2005‑2015) 데이터를 사용한다. 각 시즌을 2절반으로 나누어 첫 절반 데이터를 학습에, 두 번째 절반 데이터를 검증에 활용한다. 결과는 득점 기회 기반 회귀 모델이 전통적인 승점 기반 모델보다 평균 예측 오차가 15 % 이상 감소함을 보여준다. 또한 정보증폭 계수는 0.68, 무작위 변동 계수는 0.32로 추정되어, 전체 변동 중 약 68 %가 체계적 요인으로 설명 가능함을 시사한다. 이러한 수치는 다른 유럽 주요 리그에도 적용 가능함을 논문 말미에 제시한다.