야구 투척 능력 정량 분석

본 연구는 메이저리그 외야수와 포수의 투척 능력을 정량적으로 평가한다. 상세한 경기 이벤트 데이터를 활용하여 외야수와 포수의 투척 기회에서 성공·실패 사건을 기록하고, 각 사건에 득점 기여도를 부여하였다. 4시즌에 걸친 데이터를 바탕으로 베이지안 계층 모델을 적용해 각 선수의 전체 투척 능력을 추정한다. 이 모델은 선수별 기회 수에 따라 개별 추정치를 전체

야구 투척 능력 정량 분석

초록

본 연구는 메이저리그 외야수와 포수의 투척 능력을 정량적으로 평가한다. 상세한 경기 이벤트 데이터를 활용하여 외야수와 포수의 투척 기회에서 성공·실패 사건을 기록하고, 각 사건에 득점 기여도를 부여하였다. 4시즌에 걸친 데이터를 바탕으로 베이지안 계층 모델을 적용해 각 선수의 전체 투척 능력을 추정한다. 이 모델은 선수별 기회 수에 따라 개별 추정치를 전체 모집단 평균으로 수축(shrink)시키는 효과를 제공한다. 모델로부터 얻은 사후 분포를 이용해 투척 기여도가 통계적으로 유의하게 양(+) 또는 음(–)인 선수를 식별한다.

상세 요약

이 논문은 야구 투척 능력이라는 비교적 난해한 방어 지표를 계량화하려는 시도로, 기존의 단순 성공률이나 실책 수에 의존하던 접근법을 넘어선다. 첫 번째 단계는 플레이‑바이‑플레이(event‑by‑event) 데이터베이스를 구축해 외야수와 포수 각각의 ‘투척 기회’를 정의하고, 성공(예: 주자를 아웃시키는 정확한 송구)와 실패(예: 주자를 진루시키는 오투척) 사건을 구분한다. 여기서 중요한 점은 각 사건에 ‘런 기여도’를 할당한다는 것이다. 이는 단순히 아웃/실책을 기록하는 것이 아니라, 해당 사건이 경기 흐름에 미치는 기대 득점 변화를 정량화한다는 의미이며, 실제 승패에 직접 연결되는 가치 척도를 제공한다.

두 번째 핵심은 베이지안 계층 모델(Hierarchical Bayesian Model)의 도입이다. 선수별 투척 능력 θ_i 를 모집단 평균 μ와 분산 τ² 를 갖는 정규분포의 사전분포로 설정하고, 각 선수의 관측된 성공·실패 횟수를 이항 혹은 베르누이 과정으로 모델링한다. 이렇게 하면 기회가 적은 선수는 사후 분포가 μ에 강하게 수축되어 과도한 변동성을 억제하고, 기회가 풍부한 선수는 데이터에 의해 더 크게 업데이트된다. 이는 ‘샤링(샤링)’ 효과라 불리며, 작은 표본 크기로 인한 추정 불안정을 효과적으로 보정한다.

모델 추정은 마코프 체인 몬테 카를로(MCMC) 샘플링을 통해 수행되며, 사후 평균과 95 % 신뢰구간을 도출한다. 이후 각 선수의 사후 평균이 0(즉, 평균 투척 기여도)보다 유의하게 상회하거나 하회하는지를 검정해 ‘양(+)’ 혹은 ‘음(–)’ 투척 기여자를 식별한다. 이러한 접근은 전통적인 순위표와 달리 불확실성을 명시적으로 반영하므로, 팀 매니지먼트가 선수 영입·배치 결정을 할 때 보다 신뢰할 수 있는 정보를 제공한다.

연구의 제한점으로는 (1) 투척 기여도를 ‘런’으로 환산하는 과정에서 사용된 가중치가 상황(예: 득점 차, 이닝, 주자 위치)에 따라 달라질 수 있음에도 고정값을 적용했다는 점, (2) 데이터가 4시즌에 국한돼 장기적인 변동성을 포착하기 어려웠다는 점, (3) 포수와 외야수의 투척 상황이 전술적 맥락에 따라 크게 다르므로 동일한 모델 구조가 최적이라고 단정하기 어렵다는 점을 들 수 있다. 향후 연구에서는 상황별 가중치의 동적 추정, 더 긴 기간의 데이터 통합, 그리고 투척 속도·각도 등 물리적 변수와 결합한 다변량 모델을 탐색함으로써 현재 모델의 정밀도를 한층 높일 수 있을 것이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...