피어슨·스피어만 대체 상관계수와 혼합 접근법

본 논문은 연속형 변수에 적합한 피어슨 상관계수와 순위 기반 스피어만 상관계수의 한계를 짚고, 이들을 가중 혼합하여 새로운 상관계수를 제안한다. 특히 이산형 변수에서 순위가 실제 값보다 의미가 클 때 제안 방법이 기존 방법보다 정확한 관계 추정을 제공함을 다양한 실험과 사례를 통해 입증한다.

피어슨·스피어만 대체 상관계수와 혼합 접근법

초록

본 논문은 연속형 변수에 적합한 피어슨 상관계수와 순위 기반 스피어만 상관계수의 한계를 짚고, 이들을 가중 혼합하여 새로운 상관계수를 제안한다. 특히 이산형 변수에서 순위가 실제 값보다 의미가 클 때 제안 방법이 기존 방법보다 정확한 관계 추정을 제공함을 다양한 실험과 사례를 통해 입증한다.

상세 요약

논문은 먼저 피어슨 상관계수(Pearson’s r)가 선형 관계와 정규성 가정을 전제로 하는 반면, 스피어만 상관계수(Spearman’s ρ)는 순위 기반 비선형 관계를 포착하지만 값의 절대적 차이를 무시한다는 점을 명확히 지적한다. 이러한 차이는 특히 이산형 변수, 즉 값이 제한된 범위 내에서 정수형으로 나타나는 경우에 두드러진다. 예를 들어 설문 응답 점수(1~5)나 등급(등급 A, B, C)와 같이 순위 자체가 의미를 갖는 상황에서는 순위가 변동폭보다 더 큰 해석적 가치를 지닌다. 기존 연구에서는 이러한 경우 스피어만 상관계수를 선호했지만, 순위가 동일한 경우에도 실제 값 차이가 존재한다면 스피어만은 정보를 손실한다는 단점이 있다.

이에 저자는 두 상관계수를 선형 결합하는 혼합 상관계수(Weighted Mixture Correlation, WMC)를 제안한다. WMC는
\


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...