야구 타격 성과 계층 베이지안 모델링
초록
본 논문은 선수 연령·포지션 등 공변량을 포함한 계층 베이지안 모델을 구축하여 메이저리그 타격 성과를 예측한다. 혼합 분포를 이용한 공유 정보와 수축 효과로 기존 사베르메트릭 방법을 능가하는 정확도를 보이며, 2006년 시즌을 보류 데이터로 검증한다. 모델의 장점과 한계도 함께 논의한다.
상세 분석
본 연구는 메이저리그 타자들의 타격 지표(예: 타율, wOBA)를 예측하기 위해 완전한 계층 베이지안 프레임워크를 제시한다. 1차 수준에서는 각 선수‑시즌별 타격 성과를 정규분포로 가정하고, 평균은 선수 고유의 능력치와 연령·포지션 같은 공변량의 선형 결합으로 표현한다. 2차 수준에서는 선수 능력치 자체를 모집단 평균과 분산을 갖는 정규분포로부터 추출함으로써 선수 간 정보 공유를 가능하게 한다. 특히, 혼합 정규분포(두 개 이상의 컴포넌트) 를 사전분포로 사용해 능력치의 이질성을 포착하고, 자동으로 강한 수축(샤링크) 혹은 약한 수축을 적용한다. 이는 신인 선수나 데이터가 부족한 시즌에서도 과도한 추정 편향을 방지한다.
베이지안 추론은 MCMC(특히 Gibbs 샘플링과 Metropolis‑Hastings)를 통해 사후분포를 얻으며, 예측값은 사후 평균뿐 아니라 불확실성(신뢰구간)도 제공한다. 모델 검증에서는 2006년 시즌을 보류 데이터로 설정하고, 기존 사베르메트릭 지표(OPS, wOBA, BABIP 등)와 비교한다. 결과는 평균 제곱오차(MSE)와 로그우도에서 베이지안 모델이 일관되게 우수함을 보여준다. 또한, 연령 효과가 비선형적으로 감소하고, 포지션별 평균 차이가 통계적으로 유의함을 확인한다.
한계점으로는 MCMC 계산량이 크고, 모델이 정규성 가정에 의존해 극단적인 경기(예: 부상, 급격한 폼 변화)을 충분히 포착하지 못한다는 점을 들었다. 또한, 공변량 선택이 제한적이며, 타격 외의 방어적 요소나 경기 상황(예: 경기장, 날씨)까지 확장하려면 모델 구조를 복잡하게 해야 한다. 향후 연구에서는 변분 추론(VI)이나 스파스 혼합 모델을 도입해 계산 효율성을 높이고, 비선형 효과를 포괄하는 베이지안 신경망(BNN) 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기