연구평가에서 통계적 유의성 검정의 함정

Schneider(2016)는 최근 인용지표를 이용한 연구평가에서 통계적 유의성 검정(NHST)의 도입을 주장한 Opthof와 Leydesdorff(2010)의 논의를 비판한다. 논문은 먼저 Opthof·Leydesdorff가 제안한 ‘합계 대비 비율’ 정규화 방식이 기존 CWTS의 ‘크라운 지표’보다 통계적으로 더 타당하다고 주장하면서, 이를 근거로 p값과 표준오차를 활용한 유의성 검정을 제시한 점을 지적한다. 저자는 이러한 접근이 통계적 유의성 검정의 전형적인 함정을 그대로 재현하고 있다고 비판한다. 첫 번째 문제는 ‘영가설‑유의수준‑p값’이라는 고정된 절차를 의례적으로 수행한다는 점이다. 영가설은 보통 ‘차이가 없다’ 혹은 ‘상관관계가 0이다’라는 형태로 설정되지만, 실제 연구에서는 이러한 영가설이 실질적인 연구문제와 연결되지 않는다. 특히 인용점수와 같은 비정규적 데이터에 대해 ‘세계 평균 1과 차이가 없다’는 영가설을 설정하는 것은 비현실적이며, 영가설이 참일 확률을 검정하는 것이 의미가 없다는 것이 저자의 주장이다. 두 번째는 NHST가 결과를 이분법적으로 ‘유의함/유의하지 않음’으로 구분한다는 점이다. Opthof·Leydesdorff는 5% 혹은 1%와 같은 임의의 유의수준을 적용해 결과를 판단한다. 이는 표본 크기에 따라 작은 효과도 ‘유의’하게 만들거나, 큰 효과라도 표본이 작으면 ‘비유의’하게 만드는 위험을 내포한다. 연구평가에서는 실제로 차이가 중요한지 여부가 핵심이므로, 통계적 유의성 자체가 평가 기준이 되는 것은 부적절하다. 세 번째는 통계적 유의성과 실질적(학문적) 의미를 혼동한다는 점이다. 인용지표의 차이가 통계적으로 유의하다고 해서 그 차이가 정책적·학문적 의미를 갖는 것은 아니다. 저자는 효과크기(effect size)와 같은 실질적 크기를 함께 제시해야 한다고 강조한다. 네 번째는 무작위성 가정의 위배이다. NHST는 표본이 무작위 추출된다는 전제하에 표본오차를 추정한다. 그러나 연구평가에서 다루는 데이터는 보통 전체 연구자 혹은 기관의 전체 인용 기록이며, 무작위 표본이 아니다. 따라서 표준오차와 신뢰구간을 근거로 한 검정은 근본적으로 의미를 상실한다. 다섯 번째는 표준오차와 신뢰구간을 p값의 대체물로 제시하는 Opthof·Leydesdorff의 접근이 잘못되었다는 점이다. 표준오차는 모델이 정확히 지정되고 무작위성이 보장될 때만 의미가 있다. 신뢰구간 역시 ‘반복 가능한 표본추출’이라는 전제 하에 해석되어야 하는데, 인용데이터는 관측치 자체가 전체 집단을 대표하도록 설계된 경우가 많아 이러한 해석이 무의미해진다. 이러한 비판을 바탕으로 저자는 NHST를 연구평가에 적용하는 것이 평가자의 비판적 사고를 저해하고, 정량적 지표에 대한 과도한 신뢰를 초래한다며, 다음과 같은 대안을 제시한다. 첫째, 효과크기와 그 실질적 의미를 함께 보고한다. 둘째, 통계적 전력(power) 분석을 통해 검정의 민감도를 평가한다. 셋째, 복제연구와 다중 데이터 소스를 활용해 결과의 견고성을 검증한다. 넷째, 전문가 판단과 정성적 평가를 결합한 ‘정보에 기반한 판단(informed judgment)’을 강조한다. 결론적으로, Schneider는 NHST가 연구평가에서 ‘편리한 도구’가 아니라 ‘위험한 의례’가 될 수 있음을 경고한다. 통계적 검정에 의존하기보다, 다양한 통계적·정성적 방법을 통합하고, 각 지표의 실질적 의미를 깊이 있게 해석하는 것이 바람직하다고 주장한다.

연구평가에서 통계적 유의성 검정의 함정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기