베이즈볼 메이저리그 야구 수비 평가를 위한 베이지안 계층 모델

본 논문은 고해상도 타구 위치 데이터를 활용해, 각 포지션별 수비수를 연속적인 공간 모델로 평가한다. 베이지안 계층 구조를 도입해 포지션 내 선수들 간 정보를 공유하고, 성공/실패 확률을 거리·방향·속도와 연결한 프로빗 회귀를 사용한다. 추정된 확률을 타구당 기대 득점 변화와 결합해 연간 ‘구원 득점(또는 손실)’을 산출한다. UZR 등 기존 이산 구역 기반 방법과 비교해 더 세밀한 차별력을 보이며, 샘플이 적은 선수에게도 안정적인 추정이 가능…

저자: Shane T. Jensen, Kenneth E. Shirley, Abraham J. Wyner

베이즈볼 메이저리그 야구 수비 평가를 위한 베이지안 계층 모델
본 논문은 메이저리그 야구의 수비력을 고해상도 타구 위치 데이터를 이용해 정량적으로 평가하는 새로운 방법을 제시한다. 전통적인 수비 평가 지표인 오류(Errors)나 UZR(Ultimate Zone Rating) 등은 이산적인 구역에 기반해 모든 타구를 동일하게 취급하는 한계가 있다. 저자들은 이러한 한계를 극복하고자, 타구가 실제로 발생한 (x, y) 좌표와 속도 정보를 연속적인 공간 변수로 활용한다. 데이터는 2002‑2005년 4시즌 동안 약 120,000개의 BIP(볼인플레이)로 구성되며, 플라이볼(33%), 라인(25%), 그라운더(42%)의 세 유형으로 구분된다. 각 BIP는 성공(수비수가 잡음) 혹은 실패(히트)라는 이진 결과 Sij 로 기록된다. 플라이볼·라인의 경우, 성공 확률은 수비수가 BIP까지 이동해야 하는 2차원 거리 Dij, 이동 방향(Fij: 전진/후진), 그리고 타구 속도 Vij 를 독립 변수로 하는 프로빗 회귀식으로 모델링한다. 구체적으로 pij = Φ(β0 + β1·Dij + β2·Dij·Fij + β3·Dij·Vij + β4·Dij·Vij·Fij) 와 같이 정의한다. 여기서 β0 은 바로 앞에서 잡는 기본 확률, β1·β2 는 거리와 방향에 따른 성공 확률 감소(또는 증가) 효과, β3·β4 는 속도에 따른 조정 효과를 의미한다. 그라운더는 BIP 위치를 1차원 각도 θij 로 변환하고, 좌·우 이동을 Lij 로 표시한다. 동일한 형태의 프로빗 모델 pij = Φ(β0 + β1·θij + β2·θij·Lij + β3·θij·Vij + β4·θij·Vij·Lij) 을 적용한다. 각 포지션(1B, 2B, 3B, SS, LF, CF, RF)과 BIP 유형별로 별도의 모델을 적합한다(총 18개 조합, 연도별로 4번씩, 총 72개 모델). 그러나 개별 선수마다 BIP 수가 크게 차이 나기 때문에, 단순히 각 선수별 βi 를 독립적으로 추정하면 표본이 적은 선수는 과도한 변동을 보인다. 이를 해결하기 위해 베이지안 계층 구조를 도입한다. 즉, 같은 포지션에 속한 모든 선수의 βi 를 공통 사전 분포 βi ~ N(μ, Σ) 로부터 추출하도록 설정한다. Σ는 대각선만 허용해 사전 독립성을 가정하고, μ와 각 σk² 에는 비정보적 사전(p(μk,σk)∝1) 을 부여한다. 이렇게 하면 포지션 전체 데이터가 작은 표본을 가진 선수의 추정치를 ‘shrinkage’ 시켜, 보다 안정적인 베타 추정값을 얻을 수 있다. 베이지안 추정은 Gibbs 샘플링을 이용한 MCMC 방법으로 수행된다. 사후 분포 p(β, μ, σ² | S, X) 를 얻은 뒤, 각 β̂i 로부터 수비수 i의 위치별 성공 확률 곡면을 시각화한다. 다음 단계는 이 확률을 실제 경기 가치인 ‘런스(Runs)’와 연결하는 것이다. 저자들은 성공적인 수비가 평균 -0.5점(상대 팀이 득점하지 못함), 실패가 +0.5점(상대 팀이 득점)이라는 가정을 사용한다. 각 선수의 BIP 위치 분포와 위에서 추정한 성공 확률을 곱해 기대 런스 변화를 계산하고, 이를 연간 BIP 수와 합산해 ‘연간 구원 런스(saved or cost)’를 산출한다. 결과 분석에서는 2002‑2005년 데이터를 이용해 각 포지션·타구 유형별 베타 평균과 분산을 보고하고, 개별 선수들의 연간 런스 기여도를 제시한다. 기존 UZR와 비교했을 때, 베이즈볼은 특히 구역 경계가 아닌 중간 지역에서도 미세한 차이를 감지해, UZR가 놓친 수비 가치를 드러낸다. 또한, 샘플이 적은 신인·대체 선수에 대해서도 합리적인 추정치를 제공함으로써 팀이 선수 영입·보유 결정을 내리는 데 실용적인 정보를 제공한다. 논문의 한계로는 타구 속도가 인간 관찰에 의존해 주관적 오류가 포함될 가능성, 그리고 ‘런스 가치’를 고정된 평균값으로 설정한 점을 들 수 있다. 향후 연구에서는 센서 기반 정확한 속도 측정과 상황별(예: 득점 위기) 런스 가중치를 도입해 모델을 확장할 수 있다. 전반적으로 이 연구는 연속 공간 베이지안 계층 모델이 스포츠 통계에 적용될 때, 데이터의 희소성 문제를 해결하고, 보다 정밀한 개인별 성과 평가를 가능하게 함을 보여준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기