베이지안 변수 선택으로 본 메이저리그 타격 지표의 신뢰성
초록
본 연구는 베이지안 계층 모델을 이용해 50개의 타격 지표 중 어느 것이 선수별 시간 흐름 속에서 일관된 예측력을 가지는지를 평가한다. 변수 선택을 베이지안 방식으로 수행함으로써 사후분포를 완전하게 추정하고 다중 검정 문제를 자동으로 보정한다. 결과는 50개 중 33개 지표가 실질적인 신호를 보이며, 이들 지표는 전통적인 타격 특성(볼넷, 장타, 컨택트)과 높은 상관관계를 가진다.
상세 분석
이 논문은 메이저리그 야구에서 오펜시브 능력을 정량화하기 위해 제안된 다양한 통계 지표들의 신뢰성을 베이지안 변수 선택 프레임워크로 검증한다. 저자는 먼저 2000년부터 2019년까지의 시즌 데이터를 수집해 50개의 대표적인 타격 메트릭을 선정했으며, 각 선수의 연도별 기록을 종속 변수로, 해당 메트릭들을 독립 변수 집합으로 설정하였다. 핵심 모델은 베이지안 계층 구조를 갖는 선형 회귀식으로, 선수별 효과와 연도별 변동성을 각각 정규분포로 모델링하고, 변수 선택을 위해 스파스성을 유도하는 스틱-브레이크(prior) 혹은 라플라스형(라쏘) 사전분포를 적용하였다. 이러한 사전은 각 변수의 포함 여부를 이진 인디케이터와 연계시켜, 사후 확률이 일정 임계값을 초과하면 해당 변수를 ‘신호’가 있는 것으로 판정한다.
베이지안 접근법의 장점은 다중 검정 문제를 자연스럽게 해결한다는 점이다. 전통적인 빈도주의적 p‑값 기반 방법은 50개의 테스트에서 발생할 수 있는 거짓 양성률을 별도로 조정해야 하지만, 베이지안 모델은 사후 확률 자체가 이러한 불확실성을 반영한다. 또한, 사후 분포를 통해 각 변수의 효과 크기와 불확실성을 동시에 추정할 수 있어, 단순히 ‘유의함/비유의함’을 넘는 풍부한 해석이 가능하다.
분석 결과, 33개의 메트릭이 95% 신뢰 구간 내에서 비영(0)과 겹치지 않는 효과를 보였으며, 이들 대부분은 전통적인 타격 카테고리와 높은 상관관계를 나타냈다. 예를 들어, 타구당 평균 출루율(OBP), 장타율(SLG), 그리고 컨택트 비율(BA)은 서로 연관된 신호를 제공했으며, 이는 기존 스카우팅이나 전통 통계가 실제 선수 성과를 반영한다는 가설을 뒷받침한다. 반면, 일부 최신 메트릭(예: Exit Velocity, Launch Angle)은 신호가 약하거나 다른 변수와 중복되는 경향을 보여, 독립적인 예측 변수로서의 가치는 제한적일 수 있음을 시사한다.
모델 적합도 평가에서는 WAIC와 LOO‑CV를 활용해 베이지안 모델이 기존 빈도주의적 변수 선택 방법보다 더 낮은 예측 오차를 기록했다. 또한, 변수 간 다중공선성을 고려한 사전 설계가 효과적으로 상관관계 높은 변수들을 동시에 포함시키면서도 과적합을 방지하는 데 기여했다.
이 연구는 베이지안 변수 선택이 야구 통계학에서 복잡한 변수 집합을 다룰 때 강력한 도구가 될 수 있음을 보여준다. 특히, 사후 확률 기반의 ‘신호 강도’를 통해 스카우팅, 선수 계약, 그리고 경기 전략 수립에 실질적인 인사이트를 제공한다는 점이 의의이다.
댓글 및 학술 토론
Loading comments...
의견 남기기