p‑값 오해와 남용: 연구 신뢰성을 위협하는 함정

본 논문은 p‑값이 사회·자연 과학 전반에 걸쳐 널리 사용되고 있지만, 오해와 남용이 빈번함을 지적한다. 특히 거대 데이터 시대에 0.05 수준의 유의수준이 실제 오류율(FDR)을 크게 높이며, 저조한 사전 확률(prevalence)과 통계적 검정력(power) 때문에 허위 발견이 급증한다는 점을 강조한다. 저자는 베이지안 관점에서 FDR 계산을 설명하고, 알파 수준을 0.01·0.001로 낮추고 메타‑분석·효과 크기 중심의 해석을 권고한다.

저자: Bertie Vidgen, Taha Yasseri

이 논문은 “p‑값: 오해와 남용”이라는 제목 아래, p‑값이 현대 과학 연구, 특히 사회과학과 자연과학에서 얼마나 광범위하게 사용되는지를 서술한다. 저자는 p‑값이 0.05 이하일 때 ‘통계적 유의성’이라고 판단하는 관행이 과학적 발견의 신뢰성을 크게 위협한다는 점을 강조한다. 첫 번째 장에서는 NHST의 두 가지 전통적 흐름을 소개한다. 피셔가 제안한 ‘유의성 검정’은 p‑값을 증거의 강도 지표로 보았으며, 이를 통해 추가 연구의 필요성을 판단하도록 설계되었다. 반면 네이만·피어슨이 만든 ‘가설 검정’은 p‑값이 사전에 정한 유의수준(α)보다 작으면 영가설을 기각하고 대립가설을 채택한다는 이분법적 결정을 강요한다. 두 접근법이 혼합되어 사용되는 현재의 NHST는 연구자가 효과 크기와 사전 확률을 명시하지 못하게 만들며, 특히 ‘nil 가설’(효과 크기가 0)과 ‘null 가설’(효과 크기와 방향이 명시된 가설)을 구분하지 못하게 한다. 두 번째 장에서는 False Discovery Rate(FDR)의 개념을 상세히 설명한다. p‑값이 0.05라는 것은 장기적으로 Type I 오류율이 5 %임을 의미하지만, 실제 연구에서 보고되는 거짓 양성 비율은 훨씬 높다. FDR은 “거짓 양성 / (거짓 양성 + 진양성)”으로 정의되며, 이를 계산하려면 사전 확률(prevalence), 검정력(power), 그리고 α가 모두 필요하다. 논문은 수식(2)를 통해 FDR =

p‑값 오해와 남용: 연구 신뢰성을 위협하는 함정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기