NHST의 근본적 혼동과 파급 효과

초록

본 논문은 영가설 유의성 검정(NHST)이 두 개의 서로 다른 통계 이론—피셔의 유의성 검정과 네이만·피어슨의 가설 검정—을 혼합한 결과 발생하는 근본적인 오해와 논리적 한계를 짚는다. 과학계, 특히 계량학 분야에서 NHST가 어떻게 오용·오해되는지 사례를 들어 설명하고, 보다 건전한 데이터 분석을 위한 실천적 권고를 제시한다.

상세 분석

NHST가 현재 과학 연구에서 가장 흔히 사용되는 통계 도구임에도 불구하고, 그 이론적 토대는 두 개의 전혀 다른 전통에 뿌리를 두고 있다. 첫 번째는 로널드 피셔가 제시한 ‘유의성 검정’으로, 여기서는 귀무가설이 참이라고 가정하고 관측된 데이터가 그 가설 하에서 얼마나 드물게 나타나는지를 p값으로 표현한다. p값은 ‘데이터가 귀무가설 하에서 관찰될 확률’이며, 이를 통해 연구자는 ‘귀무가설을 기각할 충분한 증거가 있는가’를 판단한다. 그러나 피셔는 이 절차를 ‘귀무가설을 기각하거나 받아들이는’ 이분법적 결론을 내리기보다는, 탐색적 증거 제시의 수단으로 보았다.

두 번째는 제이네 네이만과 에드워드 피어슨이 발전시킨 ‘가설 검정’ 체계이다. 여기서는 귀무가설과 대립가설을 동시에 설정하고, 제1종 오류(α)와 제2종 오류(β)를 사전에 정의한다. 검정통계량이 사전에 정해진 임계값을 초과하면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 유지한다. 이 접근법은 결정론적 결론을 내리기 위한 절차적 규칙을 제공한다.

논문은 이 두 이론이 실제 연구에서 무분별하게 결합돼 ‘NHST’라는 하나의 절차로 전락하면서 발생하는 문제점을 지적한다. 첫째, p값을 ‘귀무가설이 참일 확률’ 혹은 ‘대립가설이 진실일 확률’로 오해하는 사례가 빈번하다. 이는 베이즈적 해석을 무리하게 끌어들인 결과이며, 실제로 p값은 데이터와 귀무가설 사이의 관계만을 반영한다. 둘째, α 수준을 사후에 조정하거나, p값이 0.05 이하이면 자동으로 ‘실질적 의미’를 부여하는 관행은 통계적 오류를 확대한다. 셋째, 검정력(power)과 효과크기(effect size)를 무시하고 단순히 유의성 여부에만 집중함으로써 연구 결과의 실질적 해석력을 약화시킨다.

특히 계량학(Scientometrics) 분야에서는 인용 횟수, 협업 네트워크, 연구 성과 지표 등에 대한 비교 분석에서 NHST가 남용되는 경향이 있다. 논문은 이러한 사례들을 구체적으로 제시하며, ‘p값이 작다 = 의미가 있다’는 잘못된 인과관계를 바로잡는다. 또한, NHST가 제공하는 정보는 ‘귀무가설이 데이터와 얼마나 부합하는가’ 정도에 국한되며, 연구 가설의 진위 여부를 직접 입증하지 못한다는 근본적 한계를 강조한다.

마지막으로 저자들은 NHST의 대안으로 베이즈 통계, 신뢰구간, 효과크기 중심의 보고, 사전 검정(power analysis) 등을 제시한다. 이러한 접근법은 연구 설계 단계에서부터 오류 가능성을 최소화하고, 결과 해석 시 보다 풍부한 정보를 제공한다. 논문은 NHST를 완전히 폐기하기보다는, 그 한계를 명확히 인식하고 보완적 방법과 결합해 사용할 것을 권고한다.