맞춤형 Z스코어로 선수 생체지표 이상 탐지
초록
본 연구는 개인별 장기 추적 데이터에 적용할 수 있는 세 가지 맞춤형 Z‑스코어 방법을 제안하고, 이를 프랑스 프로 축구선수 3,936명과 사이클리스트 1,683명의 혈액·소변 바이오마커에 적용하였다. 특히 연속적인 이상값을 탐지하는 방법이 철분 저장소인 페리틴과 IGF‑1에서 높은 이상 검출률을 보였다.
상세 분석
이 논문은 개인 내 변동성을 모델링하기 위해 네 가지 Z‑스코어 통계량을 정의한다. 기본 통계량 T(0)은 최신 관측값을 과거 평균·분산으로 표준화한 단일‑샘플 Z‑스코어이며, Student (n‑2) 분포를 이용해 유의성을 검정한다. T(1)은 전체 시계열에서 가장 큰 표준화 편차를 선택해 개별 이상값을 탐지하고, n개의 상관관계가 없는 통계량들의 최대값을 사용한다는 점에서 다중 검정 보정이 필요하다. T(2)는 연속 구간 I⊂{1,…,n}의 평균 차이를 전체 평균과 비교해 구간 전체가 정상 범위에서 벗어났는지를 평가한다. 이때 구간 길이 |I|에 따라 자유도가 변동하므로, Monte Carlo 시뮬레이션을 통해 임계값을 사전 계산한다. 다변량 확장인 T(3)은 상관행렬 C를 추정하고, Mahalanobis 거리 형태의 통계량을 각 관측에 적용해 여러 바이오마커를 동시에 평가한다. 마지막으로 DevianLM은 설계 행렬 M을 포함한 일반선형모형에 T(1) 형태를 적용해 외부 공변량(예: 시즌, 연령) 효과를 보정한다. 데이터 전처리 단계에서는 각 바이오마커에 대해 로그, m‑제곱근, Lambert W, Box‑Cox 변환을 시도하고, Shapiro‑Wilk 검정 후 Kolmogorov‑Smirnov을 이용해 전체 p‑값이 가장 큰 변환을 선택한다. 이는 개별 시계열이 정규성을 가장 잘 만족하도록 하는 실용적 접근이다. 연구는 두 데이터셋 모두에서 T(2) 방법이 페리틴과 IGF‑1에서 정상 검출률(FPR) 대비 3배 이상의 이상 검출률을 보였으며, 이는 연속적인 생리적 변화(예: 훈련 강도 상승, 철분 보충)와 연관될 가능성을 시사한다. 그러나 작은 표본(n≥4)과 iid 가정 위배 시 과도한 거짓 양성 위험이 존재한다는 한계도 명시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기