PGA 투어 점수의 정규분포 모델링
초록
본 논문은 2007년 PGA 투어 46개 스트로크플레이 경기의 점수를 정규분포로 모델링할 수 있음을 통계적 검증을 통해 입증한다. Kolmogorov‑Smirnov 검정을 이용해 각 경기별 점수 분포와 정규분포의 적합성을 평가하고, 평균과 표준편차를 이용한 z‑스코어가 경기장·조건에 무관한 성적 비교 지표로 유용함을 제시한다. 또한, 이 방법을 활용해 타이거 우즈가 연속 11승 기록을 깰 확률을 계산한다.
상세 분석
논문은 먼저 PGA 투어의 점수 데이터를 “연속형 확률변수”로 가정하고, 각 경기마다 전체 필드(보통 144명)의 최종 점수를 수집하였다. 2007년 시즌 전체 46경기를 대상으로, 각 경기의 평균 점수(μ)와 표준편차(σ)를 구한 뒤, 정규분포 N(μ,σ²)와의 차이를 Kolmogorov‑Smirnov(K‑S) 검정으로 정량화하였다. K‑S 검정은 누적분포함수(CDF) 차이의 최대값을 기반으로 귀무가설(점수가 정규분포를 따른다)을 검정하며, p‑값이 0.05 이상이면 귀무가설을 기각하지 않는다. 모든 경기에서 p‑값이 0.10~0.78 사이로 나타나, 정규성 가정이 통계적으로 타당함을 확인했다.
이후 저자는 각 선수의 원점수 S를 μ와 σ로 정규화한 z‑스코어 z = (S‑μ)/σ를 도입한다. z‑스코어는 경기장 특성(코스 난이도, 날씨 등)과 필드 강도에 대한 영향을 자동으로 보정한다는 점에서 기존의 순위·총점 대비 더 객관적인 성과 지표가 된다. 예를 들어, 동일한 68타가 코스가 어려운 토러스에서 기록되었는지, 쉬운 코스에서 기록되었는지에 따라 z‑스코어가 크게 달라지며, 이는 선수 간 실력 비교를 보다 정밀하게 만든다.
또한 논문은 z‑스코어를 이용해 연속 승리 확률을 모델링한다. 각 경기에서 우승자의 z‑스코어 분포를 추정하고, 독립적인 경기로 가정했을 때 연속 n번 승리할 확률을 (p₁·p₂·…·pₙ) 형태로 계산한다. 이를 토대로 타이거 우즈가 11연승(바이런 넬슨 기록) 달성 확률을 약 0.03% 수준으로 추정하였다.
한계점으로는 (1) 각 경기의 점수가 독립적이라는 가정이 실제로는 경기 일정, 피로도, 심리적 요인 등으로 위배될 수 있다. (2) 정규분포는 극단적인 고점·저점(예: 폭풍우로 인한 비정상적 스코어)에서 오차가 커질 수 있다. (3) 2007년 한 시즌만을 분석했기 때문에 연도 간 변동성을 검증하지 못했다. 이러한 점들은 향후 다년도 데이터와 비정규성 검정(예: Shapiro‑Wilk) 등을 통해 보완될 필요가 있다.
전반적으로, 점수를 정규분포로 모델링하고 z‑스코어를 도입함으로써 PGA 투어 성적을 통계적으로 표준화하고, 경기장·필드 차이를 제거한 객관적 비교가 가능함을 설득력 있게 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기