p값·신뢰구간·가설 신뢰수준의 비교와 적용

** 이 논문은 통계적 추론에서 가장 널리 사용되는 영가설 검정(NHST)과 p‑값(p‑value)의 문제점을 체계적으로 분석하고, 이를 대체하거나 보완할 수 있는 ‘가설 신뢰수준(confidence level for hypotheses)’이라는 새로운 개념을 제시한다. 첫 번째 장에서는 NHST의 역사적 배경과 현재까지 이어져 온 비판들을 정리한다. 영가설은 보통 “두 집단 평균 차이가 0이다”와 같이 정확히 정의된 형태를 갖지만, 실제 연구에서는 이러한 영가설이 거의 항상 거짓일 가능성이 높다. 따라서 영가설을 기각한다는 결과는 거의 자동적으로 ‘어떤 차이가 존재한다’는 결론을 낳지만, 그 차이가 실질적으로 의미 있는지, 혹은 얼마나 큰지에 대한 정보를 제공하지 않는다. 또한, p‑값은 “귀무 가설이 참일 때 관측된 데이터보다 더 극단적인 결과가 나올 확률”이라는 정의에도 불구하고, 일반 연구자와 독자는 이를 “대안 가설이 옳을 확률”로 오해한다. 이러한 오해는 연구 결과를 과대 해석하거나, 비유의미한 결과를 무시하게 만든다. 두 번째 장에서는 신뢰구간(confidence interval)의 장점을 소개한다. 신뢰구간은 표본 추정치 주변에 ‘모집단 모수(parameter)가 포함될 확률이 일정한 구간’으로 제시되어, 효과 크기와 불확실성을 동시에 전달한다. 그러나 저자는 신뢰구간에도 두 가지 근본적인 한계가 있다고 지적한다. 첫째, 연구자가 실제로 궁금해 하는 것은 특정 가설(예: 차이가 0보다 큰가?)에 대한 확률이며, 이는 구간 자체가 아니라 구간이 포함하는 가설에 대한 확률적 판단을 요구한다. 둘째, 신뢰구간의 정의가 “신뢰(confidence)”와 “확률(probability)”을 구분하려는 인위적 시도로 보이며, 이는 독자에게 불필요한 혼란을 야기한다. 세 번째 장에서는 ‘가설 신뢰수준’이라는 개념을 도입한다. 가설 신뢰수준은 특정 가설이 참일 확률을 직접적으로 표현한다. 저자는 p‑값을 이용해 가설 신뢰수준을 추정하는 간단한 방법을 제시한다. 예를 들어, 단측 검정에서는 신뢰수준 = 1 – p, 양측 검정에서는 신뢰수준 = 1 – 2p (p는 양쪽 꼬리 합계)와 같이 변환한다. 이러한 변환은 정규성 가정과 충분히 큰 표본 크기 하에서 근사적으로 정확하다. 또한, 베이즈적 사전 확률을 명시적으로 요구하지 않으면서도, “이 가설이 얼마나 믿을 만한가?”라는 질문에 확률적 답을 제공한다. 네 번째 장에서는 세 가지 실제 사례를 통해 세 방법(p‑값, 신뢰구간, 가설 신뢰수준)의 적용과 차이를 비교한다. 1) **오스카 수상자 수명**: Redelmeier와 Singh(2001)의 연구에서 p‑값 0.003을 보고, 가설 신뢰수준을 99.85 %로 변환한다. 이는 “오스카 수상자가 일반인보다 평균 3.9년 더 오래 산다”는 가설이 거의 확실함을 의미한다. 동일 데이터로부터 95 % 신뢰구간(1.3–6.5년)도 제시되지만, 신뢰수준은 직접적인 확률 해석을 제공한다. 2) **교육 프로그램 A vs B**: 두 프로그램의 평균 점수 차이 1.07에 대해 p‑값 0.0211을 얻는다. 이를 신뢰수준으로 변환하면 약 97.9 %가 된다. 동시에 95 % 신뢰구간(0.17–1.97)도 제시되며, 차이의 크기와 불확실성을 동시에 보여준다. 여기서 신뢰수준은 “프로그램 B가 프로그램 A보다 효과가 클 확률이 97.9 %”라는 직관적인 해석을 제공한다. 3) **후속 연구(오스카 수명)와 비유의미한 결과**: 최신 데이터에서 p‑값이 0.13–0.17 사이로 상승한다. 이 경우 신뢰수준은 약 85 % 정도로 낮아져, “오스카 수상이 수명을 연장한다는 가설을 뒷받침하기에 충분히 강력하지 않다”는 결론을 내린다. 각 사례에서 저자는 변환 과정에 필요한 가정(정규성, 독립성, 표본 크기 충분성 등)을 명시하고, 이러한 가정이 위배될 경우 부트스트랩이나 베이즈 방법을 통해 보완할 수 있음을 제안한다. 다섯 번째 장에서는 p‑값이 여전히 유용할 수 있는 상황을 논의한다. 표본이 매우 작아 정규 근사가 불가능하거나, 사전 정보가 전혀 없을 때는 p‑값이 간단한 ‘귀무 가설 기각 여부’를 판단하는 지표가 될 수 있다. 그러나 대부분의 실증 연구에서는 가설 신뢰수준이 더 명확하고, 의사결정에 직접적인 정보를 제공한다는 점을 강조한다. 결론적으로, 저자는 통계적 결과를 보고할 때 “p‑값 = 0.03”이나 “95 % 신뢰구간 =

p값·신뢰구간·가설 신뢰수준의 비교와 적용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기