네트워크와 머신러닝을 활용한 최고의 대학 코치 선정
본 논문은 20세기와 21세기 초까지의 남자 대학 농구, 미식축구, 야구 경기 데이터를 네트워크로 모델링하고, 고유벡터 중심성을 이용해 팀 실력을 추정한다. 이후 코치와 선수 실력을 곱셈 관계로 가정하고, 점수 차이 확률 모델을 구축해 코치 능력을 추정한다. 연도별 상위 5명 코치를 선정하고, 활동 연수 대비 등장 빈도로 역대 최고 코치를 결정한다.
저자: Tian-Shun Jiang, Zachary Polizzi, Christopher Yuan
본 논문은 “20세기‑21세기 최고의 대학 코치를 찾는다”는 질문에 답하기 위해, 남자 대학 농구, 미식축구, 야구 세 종목의 100년간 경기 데이터를 네트워크 형태로 구조화하고, 이를 기반으로 코치 실력을 추정하는 일련의 모델을 제시한다.
1. **문제 정의와 목표**
- 각 종목별 연도마다 팀 간 승패와 점수 차이를 포함한 경기 기록을 수집한다.
- 팀 실력을 객관적으로 평가하고, 팀 실력에 대한 코치와 선수의 기여도를 분리해 코치 순위를 산출한다.
2. **데이터 수집 및 전처리**
- NCAA 공식 기록, 스포츠 통계 웹사이트 등에서 1869년(미식축구)부터 현재까지의 경기 결과와 코치 명단을 스크래핑하였다.
- 팀 명칭 표기 차이(예: “Florida State” vs “Florida St.”)를 일관되게 맞추기 위해 수작업 매핑 테이블을 구축하였다.
- 농구는 1939년부터, 야구는 1949년부터 데이터를 확보했으며, 각 연도·종목당 약 300~400개의 팀이 포함된 네트워크를 생성하였다.
3. **네트워크 기반 팀 순위 모델**
- 각 연도·종목을 하나의 가중치 방향성 그래프로 표현한다. 승리 팀 → 패배 팀 방향으로 간선을 두고, 동일 팀 간 다중 경기 시 가중치를 누적한다.
- 점수 차이는 별도 리스트로 저장해 승리 강도를 반영한다.
- 네트워크 중심성 지표를 네 가지(차수, 매개성, 근접성, 고유벡터) 중 고유벡터 중심성을 선택하였다. 고유벡터 중심성은 연결된 상대 팀들의 중심성에 비례해 가중치를 부여함으로써 ‘강팀에게 승리한 팀’이 높은 순위를 차지하도록 설계되었다.
- 실제 데이터에 적용한 결과, 고유벡터 중심성 순위는 AP와 USA Today와 같은 전통적인 투표 순위와 높은 상관관계를 보였으며, 특히 2009‑2010 시즌 남자 농구에서는 상위 10팀 중 6팀이 두 순위에 모두 나타났다.
4. **코치 효과 분리 모델**
- 팀 실력 Tₛ를 코치 실력 Cₛ와 선수 실력 Pₛ의 곱으로 가정한다(Tₛ = Cₛ·Pₛ). 이는 코치가 선수들의 기본 능력을 일정 비율로 증폭한다는 의미이다.
- 두 팀 간 점수 차이 d가 주어졌을 때, d가 발생할 확률을 정규분포 형태의 함수 f(d|P₁,P₂,C₁,C₂)로 모델링하였다. 여기서 평균은 (C₁·P₁ – C₂·P₂)이며, 분산은 경기마다 일정하게 가정한다.
- 전체 시즌 네트워크의 로그우도는 모든 경기 확률의 로그합이며, 이를 최대화하는 Cₛ 벡터를 찾는 것이 목표다. 선수 실력 Pₛ는 Tₛ와 Cₛ의 관계식으로부터 역산 가능하므로, 실제 최적화 변수는 코치 실력만이다.
- 최적화 방법으로는 (1) 유전 알고리즘, (2) Nelder‑Mead 단순 탐색, (3) Powell 비선형 최적화 세 가지를 적용했으며, 각각의 수렴 속도와 결과 일관성을 비교하였다.
5. **코치 순위 산정**
- 각 연도마다 코치 실력 추정값을 기반으로 상위 5명 코치를 선정한다.
- 코치의 전체 순위는 “연도별 상위 5회 등장 횟수 ÷ 해당 코치가 활동한 연수” 로 정의하였다. 이는 장기 활동 코치와 짧은 기간 활약한 코치를 공정하게 비교하기 위한 정규화 방식이다.
6. **결과 및 검증**
- 농구에서는 ‘Mike Krzyzewski’, ‘John Calipari’ 등 전통적인 명장이 상위에 위치했으며, 미식축구에서는 ‘Nick Saban’, ‘Bobby Bowden’ 등이 높은 점수를 받았다. 야구에서는 ‘Augie Garrido’와 같은 전설적인 코치가 선정되었다.
- 민감도 분석을 통해, 팀 실력 추정에 사용된 고유벡터 중심성의 변동, 점수 차이 확률 모델의 분산 파라미터, 코치·선수 실력 곱셈 가정 등을 조정했을 때 코치 순위가 크게 변동하지 않음을 확인하였다.
7. **강점 및 한계**
- **강점**: (① 경기 승패와 점수 차이를 동시에 활용한 정량적 팀 평가, ② 고유벡터 중심성을 통한 ‘강팀 승리’ 가중치, ③ 코치·선수 기여도 분리를 위한 수학적 프레임워크.
- **한계**: (① 코치 실력을 단순 곱셈 관계로 모델링한 점이 실제 코치의 전술·동기부여·선수 영입 능력을 충분히 반영하지 못함, ② 선수 실력이 연도 내에 일정하다는 가정이 부상·트레이드·신입생 영입 등 현실적 변동을 무시, ③ 점수 차이 확률을 정규분포로 가정한 것이 실제 비대칭·과잉분산 데이터를 충분히 설명하지 못함, ④ 데이터 정제 과정에서 팀 명칭 불일치 등으로 인한 누락 가능성, ⑤ 코치 순위 산정 방식이 활동 연수에 과도하게 보정될 위험.
8. **향후 연구 방향**
- 코치·선수 상호작용을 비선형 혹은 다층 신경망 모델로 확장하여 보다 정교한 기여도 추정.
- 선수 능력 변동을 시계열 모델(예: 베이지안 동적 모델)로 반영하고, 부상·트레이드 데이터를 포함.
- 점수 차이 확률을 t‑분포 혹은 혼합 정규분포 등 보다 유연한 분포로 대체하여 과잉분산 문제 해결.
- 데이터 수집 자동화를 강화하고, 공식 NCAA 데이터베이스와 연계해 팀 명칭 표준화를 체계화.
- 코치 순위 산정에 경기당 승률, 챔피언십 횟수 등 추가적인 성과 지표를 통합하여 다차원 평가 체계 구축.
결론적으로, 이 논문은 네트워크 과학과 머신러닝을 결합해 스포츠 코치 평가라는 복합 문제에 대한 새로운 정량적 접근법을 제시했으며, 데이터 기반 의사결정의 가능성을 보여준다. 다만 모델 가정과 데이터 품질에 대한 한계가 존재하므로, 향후 연구에서 이러한 부분을 보완한다면 보다 신뢰성 높은 코치 순위 체계가 구축될 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기