불완전 페어와이즈 비교 행렬을 활용한 역대 테니스 선수 순위 매김

본 논문은 1973년부터 현재까지 ATP 랭킹 상위에 올랐던 25명의 테니스 선수를 대상으로, 서로 경기한 결과를 이용해 불완전 페어와이즈 비교 행렬(PCM)을 구성한다. 결측값이 존재하는 경우를 고려해 고유벡터 방법(Eigenvector Method)과 로그 최소제곱법(Logarithmic Least Squares Method, LLSM)을 적용해 가중치를 추정하고, 이를 기반으로 선수들의 상대적 우열을 순위화한다. 결과는 2000년대와 20…

저자: S, or Bozoki, Laszlo Csato

불완전 페어와이즈 비교 행렬을 활용한 역대 테니스 선수 순위 매김
본 논문은 1973년부터 현재까지 ATP 공식 데이터베이스에 기록된 경기 결과를 활용해, 역대 최고의 테니스 선수 25명을 대상으로 불완전 페어와이즈 비교 행렬(Incomplete Pairwise Comparison Matrix, PCM)을 구축하고, 이를 통해 선수들의 상대적 우열을 정량화하는 방법론을 제시한다. 연구는 크게 네 부분으로 구성된다. 첫 번째 부분에서는 PCM의 기본 개념과 기존 다속성 의사결정(MADM)에서의 활용 사례를 소개한다. PCM은 n×n 양의 실수 행렬로, aᵢⱼ = wᵢ / wⱼ 형태의 비율을 통해 대안(i)과 대안(j) 간의 상대적 선호도를 표현한다. 완전 PCM에서는 모든 원소가 알려져 있으나, 실제 데이터에서는 결측값이 발생한다. 저자들은 이러한 불완전성을 그래프 G(V,E) 로 모델링하고, G가 연결 그래프일 경우 LLSM과 고유벡터 기반 완성 방법이 유일한 해를 갖는다는 기존 이론을 정리한다. 두 번째 부분에서는 테니스 데이터 수집 및 전처리 과정을 상세히 설명한다. 25명의 선수는 각각 ATP 랭킹 1위에 오른 적이 있는 인물들로 선정되었으며, 각 선수 쌍(i,j)에 대해 총 경기 횟수(zᵢⱼ), 승리 횟수(xᵢⱼ), 패배 횟수(yᵢⱼ) 를 추출한다. 여기서 zᵢⱼ = xᵢⱼ + yᵢⱼ 이다. pᵢⱼ = xᵢⱼ / yᵢⱼ 로 정의해 PCM 원소를 만든다. 그러나 두 선수가 한 번도 맞붙지 않은 경우(zᵢⱼ = 0)와 한쪽이 전승했지만 경기 수가 적은 경우(xᵢⱼ·yᵢⱼ = 0)에는 인위적인 보정값을 도입한다. 보정 방법은 두 가지가 제시되는데, 첫 번째는 경기 수가 5 이하이면 pᵢⱼ = 5, 6~10 경기이면 pᵢⱼ = 10 등으로 설정하고, 두 번째는 pᵢⱼ = xᵢⱼ + 2 로 정의한다. 이러한 보정은 결측값을 최소화하고, 그래프 G의 연결성을 유지하기 위한 실용적 조치이다. 세 번째 부분에서는 불완전 PCM에 대한 두 가지 가중치 추정 방법을 적용한다. 첫 번째는 로그 최소제곱법(LLSM)으로, 로그 변환 후 Σ (log aᵢⱼ – log(wᵢ/wⱼ))² 를 최소화하는 선형 방정식 시스템을 풀어 w를 구한다. 두 번째는 고유벡터 방법(Eigenvector Method, EM)이다. 결측값을 변수 x₁,…,x_d 로 대체해 완전 행렬 A(x)를 만든 뒤, λ_max(A(x)) 를 최소화하는 최적화 문제를 해결한다. 두 방법 모두 G가 연결돼 있으면 해가 존재하고, 실제 데이터에서도 연결성이 확보돼 있어 안정적인 결과를 얻는다. 네 번째 부분에서는 실험 결과와 해석을 제공한다. LLSM과 EM이 산출한 가중치 순위는 크게 차이가 없으며, 2000년대와 2010년대 모두 라파엘 나달, 로저 페더러, 피트 샘프라스가 상위 3위에 위치한다. 이는 기존 ATP 포인트 순위와는 독립적인, 직접 맞대결 결과에 기반한 순위임을 의미한다. 또한, 보정값을 바꾸어도 전체 순위 구조는 크게 변동하지 않아, 보정 방법의 선택이 결과에 미치는 영향이 제한적임을 확인했다. 논문은 또한 불완전 PCM의 이론적 특성을 강조한다. 특히, 그래프 G의 연결성이 해의 유일성을 보장한다는 정리(Bozóki et al., 2010)를 실제 데이터에 적용함으로써, 결측값이 존재하더라도 일관된 가중치를 도출할 수 있음을 실증한다. 마지막으로 연구의 한계와 향후 과제를 제시한다. 현재 모델은 경기 표면(클레이, 잔디, 하드코트)이나 시기별 경기 강도 차이를 반영하지 않으며, 보정값 선택이 주관적이라는 점이 있다. 또한, 선수들의 커리어 전반에 걸친 경기 수가 급격히 변동하는 점을 고려한 시간 가중치 모델이 필요하다. 향후 연구에서는 베이지안 추정, 동적 네트워크 모델, 그리고 다른 스포츠(체스, e스포츠)로의 확장을 모색한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기