시즌 중 타율 예측: 경험적 베이즈와 계층적 베이즈 방법의 현장 검증
본 연구는 2005년 메이저리그 타자들의 초반(3개월) 기록을 이용해 남은 시즌의 타율을 예측한다. 베르누이 비율을 정규화하는 분산 안정화 변환 후, 경험적 베이즈(EB), 계층적 베이즈(HB), 그리고 Robbins의 비모수 EB를 포함한 여러 수축(shrinkage) 추정기를 비교한다. 전체 데이터에서는 새롭게 제안된 비모수 EB가 가장 우수했으나, 투수와 비투수처럼 동질성이 높은 하위집합에서는 전통적인 EB·HB가 더 좋은 성능을 보였다.…
저자: Lawrence D. Brown
**연구 배경 및 목적**
타율은 야구에서 가장 기본적인 성과 지표이며, 각 타자는 일정한 성공확률 pᵢ (잠재 타율)를 가지고 있다고 가정할 수 있다. 이러한 확률을 추정하고, 시즌 초반(예: 3개월) 기록을 이용해 남은 시즌의 타율을 예측하는 문제는 베르누이 비율 모델링의 전형적인 사례이다. 본 연구는 2005년 메이저리그 전체 타자(567명)의 데이터를 사용해, 초반 기록만으로 후반 타율을 얼마나 정확히 예측할 수 있는지를 평가한다. 동시에 경험적 베이즈(EB), 계층적 베이즈(HB), 그리고 Robbins의 비모수 EB와 같은 최신 베이즈 방법들을 비교함으로써, 실제 데이터에 가장 적합한 추정기를 찾는 것이 목표이다.
**데이터와 전처리**
각 타자는 ‘at‑bat(AB)’와 ‘hit(H)’ 두 변수로 요약된다. 초반(4월~6월)과 후반(7월~10월)으로 구분해 각각의 AB와 H를 집계하였다. 최소 11번 이상의 초반 AB를 가진 선수만 분석에 포함시켰다. 데이터는 투수와 비투수로 구분했으며, 두 그룹은 평균 타율과 AB 분포에서 현저히 차이가 난다(투수 평균 0.153, 비투수 평균 0.255).
**분산 안정화 변환**
베르누이 비율의 분산은 p(1‑p)/AB 로, AB가 다르면 이분산 문제가 발생한다. 이를 해결하기 위해 arcsine 변환 Z = 2·arcsin√(H/AB) 를 적용하였다. 변환 후 Z는 평균 μᵢ ≈ 2·arcsin√pᵢ 와 근사적으로 일정한 분산 σ²ᵢ ≈ 1/AB를 갖는다. 논문은 변환 전후의 히스토그램과 QQ‑plot을 통해 정규성 가정을 검증하고, 변환이 적절함을 실증하였다.
**베이즈 방법론**
1. **경험적 베이즈(EB)**
- Efron‑Morris(1975,1977)의 James‑Stein 수축을 이분산 상황에 맞게 일반화하였다. 각 선수의 초반 변환 평균 Zᵢ 를 전체 평균 Z̄ 쪽으로 가중 평균 형태로 수축한다. 수축 계수 λᵢ = σ²ᵢ / (σ²ᵢ + τ²) 이며, τ²는 전체 데이터의 분산을 최대우도(MLE)로 추정한다(EB(ML)).
- 결과적으로 AB가 적은 선수일수록 λᵢ가 커져 더 많이 평균으로 끌린다.
2. **계층적 베이즈(HB)**
- 모집단을 정규‑정규 혼합으로 가정: Zᵢ | θᵢ ~ N(θᵢ, σ²ᵢ), θᵢ ~ N(μ₀, τ²).
- 사전분포는 ‘harmonic prior’를 사용해 극단값을 억제하고, 하이퍼파라미터 μ₀, τ²를 Gibbs 샘플링으로 추정한다.
- HB는 사후 평균 E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기