05 유의수준을 버리고 더 엄격한 기준을 선택하라
초록
본 논문은 전통적인 p = 0.05 기준이 베이지안 관점에서 H₀의 사후 확률을 충분히 낮추지 못한다는 점을 지적한다. 표본 크기 N이 100 이하일 때 p = 0.05로 귀무가설을 기각해도 사후 확률은 0.5에 가깝고, N이 100 이상이면 오히려 0.5를 초과한다. 반면 p = 0.001이나 p = 0.0001을 사용하면 사후 확률이 크게 감소하고 표본 크기에 거의 의존하지 않는다. 따라서 연구자는 가능한 한 .05 대신 더 작은 유의수준을 채택해 NHST의 증거력 문제를 완화할 것을 제안한다.
상세 분석
이 논문은 NHST(귀무가설 유의성 검정)의 근본적인 한계를 베이지안 사후 확률 관점에서 재조명한다. 저자는 사전 확률을 균등(0.5)으로 가정하고, 표본 평균이 정규분포를 따른다고 전제한다. 그런 다음, 특정 p값(0.05, 0.001, 0.0001)으로 귀무가설을 기각했을 때, 해당 데이터가 실제로 H₀가 참일 확률, 즉 사후 확률을 계산한다. 결과는 놀라울 정도로 직관에 반한다. p = 0.05 수준에서 N이 3080 사이일 경우 사후 확률은 0.450.55 정도로, 귀무가설이 여전히 절반 이상의 가능성을 가진다. N이 100을 넘으면 사후 확률이 0.5를 초과해, ‘기각’이라는 결론이 오히려 귀무가설을 지지하는 역효과를 낼 수 있음을 보여준다. 반면 p = 0.001에서는 N이 100 이하일 때 사후 확률이 0.06 이하로 급격히 낮아지며, N이 9,000 이하일 경우에도 0.25 이하에 머문다. 가장 작은 p = 0.0001을 적용하면 사후 확률은 N에 거의 영향을 받지 않고 0.01 이하로 수렴한다. 이는 Cornfield(1966)가 제시한 ‘α‑postulate’, 즉 p값 자체가 증거의 강도를 나타내야 한다는 조건을 실질적으로 만족한다는 의미다. 저자는 이러한 수치를 통해 .05라는 전통적 기준이 실제로는 증거의 강도를 충분히 반영하지 못한다는 점을 강조한다. 또한, 베이지안 방법론이 아직 널리 채택되지 않은 현실을 감안해, 기존 NHST를 포기하기보다는 더 보수적인 p값(예: 0.001 이하)을 채택함으로써 오류 위험을 현저히 감소시킬 수 있다고 주장한다. 논문은 수학적 유도와 시뮬레이션 결과를 제시하며, 특히 표본 크기와 사후 확률 사이의 비선형 관계를 시각화한다. 이는 연구 설계 단계에서 적절한 유의수준을 선택하는 것이 단순히 ‘관습’이 아니라, 실제 오류 확률을 통제하는 핵심적인 전략임을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기