통계 마녀사냥 과학과 사법의 p값 위기
초록
이 논문은 가설 검정을 법정 재판에 비유하며, 과학과 사법 체계에서 ‘통계 마녀사냥’이라 부를 수 있는 p값 남용 현상을 정의하고 진단한다. 저자는 p값에 대한 과도한 집착이 복제 위기의 핵심 원인임을 강조하고, 통계적 판단을 보다 투명하고 책임감 있게 만들기 위한 제도적·교육적 개혁을 제안한다.
상세 분석
논문은 먼저 가설 검정과 법정 재판 사이의 구조적 유사성을 상세히 설명한다. 가설(H₀)과 대립가설(H₁)은 각각 ‘무죄 추정’과 ‘유죄 추정’에 대응하고, 검정통계량은 증거물, p값은 증거의 강도, 유의수준(α)은 ‘합리적 의심을 넘는’ 기준으로 해석된다. 이러한 메타포는 통계적 판단이 실제 인간의 자유와 권리에 미치는 영향을 직관적으로 보여준다.
다음으로 저자는 ‘통계 마녀사냥’이라는 개념을 두 차원에서 정의한다. 첫째, 과학 연구에서는 p값이 0.05 이하인 결과만을 ‘유의미’하다고 간주하고, 이를 충족하지 못하면 연구 자체가 무효화되는 일종의 ‘학술 재판’이 이루어진다. 둘째, 사법 분야에서는 통계적 증거가 과도하게 강조되어, 실제 사건의 복합적 맥락을 무시하고 ‘통계적 확률’만으로 피고인의 운명을 결정하는 위험이 존재한다.
논문은 현재 복제 위기의 근본 원인으로 p값 중심의 ‘사냥’ 현상을 지목한다. 저자는 다수의 메타분석과 사례 연구를 인용해, p값에만 의존한 논문이 70% 이상이 재현에 실패한다는 통계적 증거를 제시한다. 또한, 저널의 ‘p값 컷오프’ 정책, 연구자들의 ‘출판 압력’, 그리고 자금 지원 기관의 ‘성과 기반 평가’가 이 현상을 구조적으로 강화한다는 점을 비판한다.
핵심 진단은 다음과 같다. (1) p값은 ‘증거의 강도’를 정량화하는 도구일 뿐, 인과관계나 실질적 의미를 대변하지 않는다. (2) 유의수준을 임의로 설정하고, 사후에 p값을 조작하거나 다중 비교를 무시하는 ‘p해킹’은 통계적 검증의 신뢰성을 심각히 훼손한다. (3) 법적 판단에 통계적 증거를 도입할 때, ‘증거의 무게(weight)’와 ‘합리적 의심’ 사이의 균형을 놓치면 무죄 추정 원칙이 위협받는다.
제안된 해결책은 세 축으로 구성된다. 첫째, 교육 차원에서 ‘통계적 사고’를 강화하고, p값 외에 효과크기(effect size), 신뢰구간, 베이지안 사후확률 등 다변량 접근법을 가르쳐야 한다. 둘째, 출판 및 평가 제도에서 ‘p값 컷오프’를 폐지하고, 사전 등록(preregistration)과 개방 데이터(open data)를 의무화해 투명성을 확보한다. 셋째, 사법 실무에서는 통계 전문가의 독립적 의견을 반드시 포함시키고, 통계적 증거를 ‘보조적’ 요소로 제한해 전반적 사실관계와 결합해 판단하도록 지침을 마련한다.
결과적으로, 논문은 통계 마녀사냥을 단순히 ‘과학적 오류’로 치부하지 않고, 사회적·제도적 구조가 만든 집단적 편향으로 파악한다. 이를 극복하기 위해서는 연구 문화, 출판 정책, 그리고 법적 절차 전반에 걸친 포괄적 개혁이 필요하다고 주장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기