통계적 유의성의 함정 표본 크기에 따른 오해
이 논문은 무작위 Gaussian 잡음 데이터를 이용해 두 표본 t‑검정의 p값이 0.05 이하가 되는 경우를 시각화한다. 표본 수가 커질수록 실제 차이가 거의 없더라도 통계적으로 유의한 결과가 나타날 수 있음을 보여준다.
저자: Jacob Levman
본 논문은 현대 과학 연구에서 널리 사용되는 p < 0.05라는 통계적 유의성 기준이 표본 크기가 커질수록 실제 차이가 거의 없더라도 유의한 결과를 초래할 수 있음을 시각적으로 입증한다. 서론에서는 통계적 유의성의 정의와 역사적 배경을 소개하고, 특히 1908년 ‘Student’가 고안한 두 표본 t‑검정이 현재의 대규모 데이터 환경에 맞지 않을 수 있다는 점을 강조한다. 저자는 “통계적 유의성”이라는 용어가 과학적 신뢰성을 과대평가하게 만든다고 주장하며, 이를 뒷받침하기 위해 무작위 Gaussian 잡음 데이터를 생성한다.
방법론에서는 MATLAB을 이용해 정규분포 잡음 데이터를 1000쌍씩 생성하고, 각 표본 크기(4, 16, 64, 256, 1 024, 4 096, 16 384, 65 536, 262 144)마다 두 집단 간 두 표본 t‑검정을 수행한다. p값이 0.05 미만인 경우 중 가장 큰 p값을 선택해 그림으로 제시한다. 이는 “가장 유의에 가까운” 사례를 시각적으로 보여주기 위한 전략이다. 또한, 각 표본 크기마다 p < 0.05인 경우의 수를 기록해 1000번 시뮬레이션 중 약 5%가 유의미한 결과를 보였음을 확인한다.
결과 섹션에서는 그림 1‑3과 표 1을 통해 표본 수가 증가함에 따라 두 분포 사이의 시각적 차이가 현저히 감소함을 보여준다. 4개의 표본에서는 두 이미지가 눈에 띄게 다르지만, 256개 이상에서는 차이가 거의 보이지 않는다. 그럼에도 불구하고 t‑검정은 p값을 0.049 정도로 유지한다. 표 1은 각 표본 크기별 p값과 유의한 경우의 수를 제시하며, 기대치인 5%와 거의 일치함을 보고한다.
논의에서는 이러한 현상이 “통계적 유의성”이라는 개념이 실제 효과 크기와 무관하게 낮은 문턱을 제공한다는 점을 강조한다. 저자는 과학자들이 논문 출판과 경력 발전을 위해 p < 0.05를 필수 조건으로 삼는 구조적 압박을 지적하고, 큰 표본을 사용하면 거의 모든 실험이 통계적으로 유의한 결과를 얻을 수 있다고 비판한다. 또한, p값이 0.05 이하라는 것이 “무작위성보다 95% 더 나은” 정도의 의미에 불과하므로, 실제 연구에서는 효과 크기, 신뢰구간, 베이즈적 접근 등을 함께 고려해야 한다고 주장한다.
한계점으로는 단일 검정 방법(t‑검정)과 정규성 가정에만 의존했으며, 비정규 데이터나 이분산 상황에 대한 검증이 없다는 점을 인정한다. 또한, 시각적 예시가 주관적 판단에 의존하므로, 정량적 효과 크기 분석이 부족하다는 비판도 제기될 수 있다.
결론에서는 표본 크기가 커질수록 p값만으로는 실질적 의미를 판단하기 어렵다는 교훈을 제시하고, 연구자들이 p값에 과도하게 의존하지 말고 효과 크기와 신뢰구간을 함께 보고, 필요시 베이즈 통계나 부트스트랩 등 대안적 방법을 활용해야 한다고 권고한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기