포스트‑호크 평균‑랭크 검정, 정말 사용해도 될까

본 논문은 다중 알고리즘을 다중 데이터셋에 걸쳐 비교할 때 표준적인 절차인 Friedman 검정 이후 수행되는 평균‑랭크(post‑hoc) 검정의 근본적인 결함을 체계적으로 분석한다. 먼저 Friedman 검정이 비모수적이며 데이터셋 간 독립성을 전제로 한다는 점을 설명하고, 검정이 귀무가설을 기각하면 일반적으로 평균‑랭크 검정을 이용해 쌍별 차이를 탐색한다는 현황을 제시한다. 평균‑랭크 검정은 전체 m개의 알고리즘에 대한 평균 랭크 차이를 이용해 z‑값을 계산하고, 이를 정규분포의 상한값과 비교한다. 여기서 핵심적인 문제는 평균 랭크가 **전체 알고리즘 집합**에 의존한다는 점이다. 즉, 두 알고리즘 A와 B를 비교할 때, 실험에 포함된 나머지 m‑2개의 알고리즘이 성능이 좋든 나쁘든 그들의 존재 자체가 A와 B의 평균 랭크를 변형시켜 검정 결과를 바꾼다. 이를 입증하기 위해 세 가지 구체적인 예시를 제공한다. 1) **인위적 파워 증가**: A와 B는 정확도 차이가 전혀 없지만, 다른 알고리즘 C‑E가 A보다 B를 더 자주 앞서는 경우 평균‑랭크 검정은 A와 B 사이에 유의한 차이가 있다고 잘못 판단한다. 이는 평균‑랭크가 전체 순위 구조에 의해 왜곡되기 때문이다. 2) **파워 감소**: A와 B 사이에 실제 차이가 존재함에도 불구하고, 성능이 훨씬 높은 C‑E가 포함되면 분산 추정치가 \(\sqrt{m}\) 만큼 커져 검정력이 0.05 수준으로 급격히 떨어진다. 즉, 평균‑랭크 검정은 비교 대상이 많아질수록 검정력이 감소한다는 역설적인 현상이 나타난다. 3) **실제 UCI 데이터**: 7개의 분류기를 54개의 데이터셋에 적용한 실험에서, C2와 C4를 4개 집합에 포함했을 때는 유의하지만, 다른 알고리즘을 추가하면 유의성이 사라진다. 이는 동일한 두 알고리즘에 대한 결론이 선택된 비교군에 따라 달라짐을 보여준다. 또한, 다양한 부분집합을 구성해 평균‑랭크 검정을 반복하면, 같은 두 알고리즘에 대해 유의/비유의 판단이 7/3, 9/10 등으로 크게 변동한다. 논문은 평균‑랭크 검정이 **최대 Type I 오류**(모든 알고리즘이 동일한 경우에도 m‑1개의 쌍 중 하나라도 잘못 유의하다고 판단할 확률)를 제어하지 못한다는 점을 강조한다. 이는 Bonferroni 등 사후 보정이 적용돼도 근본적인 오류 통제에 한계가 있음을 의미한다. 대안으로 제시된 **sign‑test**와 **Wilcoxon signed‑rank test**는 두 알고리즘 사이의 차이만을 이용한다. Sign‑test는 가장 보수적인 방법으로 관측값이 동일한 분포를 가정하고, Wilcoxon 검정은 대칭성을 가정하면서도 평균‑랭크 검정보다 높은 검정력을 제공한다. 두 검정 모두 다중 비교 시 Bonferroni, Holm‑Bonferroni, 혹은 더 강력한 FDR 제어 방법을 그대로 적용할 수 있다. 저자는 또한 베이지안 접근법을 언급하며, 사전 확률과 사후 확률을 이용해 보다 직관적인 해석과 오류 제어가 가능하다고 제안한다. 결론적으로, 평균‑랭크 기반 포스트‑호크 검정은 통계적 일관성을 해치며, 실무에서 잘못된 알고리즘 선택을 초래할 위험이 크다. 따라서 머신러닝, 의학, 심리학 등 다양한 분야에서 두 알고리즘 간 직접적인 차이를 검증할 때는 평균‑랭크 검정을 피하고, sign‑test 혹은 Wilcoxon signed‑rank test와 같은 두‑집단 전용 검정을 채택해야 한다는 강력한 메시지를 전달한다.

포스트‑호크 평균‑랭크 검정, 정말 사용해도 될까

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기