대안 피타고라스 승률 모델의 성능 비교와 MLB 시뮬레이션 적용

초록

본 연구는 2014년 메이저리그 시즌을 1,000번 시뮬레이션하여 전통적인 피타고라스 승률 모델과 차이형 경기성공함수(CSF) 모델을 비교한다. 고정효과를 포함한 회귀분석과 AIC 기반 정보손실 평가 결과, CSF 모델이 설명력과 적합도 면에서 피타고라스 모델을 능가함을 확인하였다. 시뮬레이션 기반 접근은 표본 크기를 크게 늘려 비정상성 문제를 회피하면서도 현실적인 통계적 특성을 재현한다는 장점을 가진다.

상세 분석

이 논문은 기존 스포츠 통계학에서 널리 사용되는 피타고라스 승률 모델이 실제 경기 결과를 예측하는 데 한계가 있을 수 있다는 가설에서 출발한다. 이를 검증하기 위해 저자는 2014년 MLB 시즌을 고정하고, 오픈소스 전략 베이스볼 시뮬레이터(SBS)를 1,000번 반복 실행한다. 자동화 스크립트(AutoHotKey)를 활용해 각 시뮬레이션마다 고유 ID를 부여하고, 동일한 경기 일정·조건 하에 득점·실점 데이터를 생성한다. 이렇게 얻은 대규모 인공 데이터는 전통적인 피타고라스 공식(승률≈득점²/(득점²+실점²))과 차이형 CSF 모델(승률≈α+β·(득점−실점))을 동시에 추정할 수 있는 기반을 제공한다.

모델 추정 단계에서는 팀별 고정효과를 포함한 패널 회귀를 적용해 팀 고유의 질적 차이를 통제한다. 이는 실제 리그에서 팀 간 자원·전략 차이가 승률에 미치는 영향을 반영한다는 점에서 중요한 설계이다. 추정 결과, CSF 모델의 β 계수는 통계적으로 유의하며, 득점과 실점의 차이가 승률에 선형적으로 영향을 미친다는 가정을 지지한다. 반면 피타고라스 모델은 비선형 형태이지만, 시뮬레이션 데이터에 적용했을 때 설명력(R²)이 낮고, AIC 값이 더 크게 나타나 모델 적합도가 떨어진다.

또한 저자는 정보손실 관점에서 AIC를 활용해 두 모델의 상대적 우수성을 평가한다. AIC는 모델 복잡도와 적합도를 동시에 고려하므로, 단순히 R²만 보는 것보다 더 신뢰할 수 있는 지표이다. 결과적으로 CSF 모델은 AIC가 피타고라스 모델보다 현저히 낮아, 동일한 데이터에 대해 더 적은 정보손실을 보인다. 이는 경기 결과를 설명할 때 차이형 함수가 보다 효율적인 통계적 구조를 제공한다는 의미이다.

시뮬레이션 자체에 대한 검증도 이루어졌다. 생성된 득점·실점 분포가 실제 2014년 시즌의 평균·분산과 유사함을 확인하고, 팀별 승률 평균이 실제 리그와 크게 차이나지 않음을 보고한다. 따라서 인공 데이터가 현실을 충분히 반영한다는 전제 하에 모델 비교가 타당함을 뒷받침한다.

이 연구는 두 가지 중요한 시사점을 제공한다. 첫째, 전통적인 피타고라스 모델이 모든 상황에서 최적이 아니라는 점이다. 특히 득점과 실점 차이가 큰 팀들 사이에서는 차이형 CSF가 더 정확한 승률 예측을 가능하게 한다. 둘째, 시뮬레이션 기반 접근은 실제 시즌 데이터가 제한적이거나 비정상성을 내포할 때, 대규모 표본을 인공적으로 생성해 통계적 검정을 수행할 수 있는 강력한 도구임을 보여준다. 향후 연구에서는 다른 스포츠 종목이나 시즌 변동성을 고려한 동적 CSF 모델을 탐색하고, 베이지안 방법론을 도입해 사전 정보와 결합하는 방안을 모색할 수 있다.