고대 무덤 발견에 대한 통계적 논쟁
본 논문은 안드레이 퓌버거가 제시한 “신약 가족 무덤” 가설에 대한 통계적 검증을 재검토한다. 저자들은 퓌버거의 RR 통계량이 이름 변형을 과도하게 세분화함으로써 p‑값을 인위적으로 낮춘다고 비판하고, 보다 보수적인 빈도주의와 베이지안 접근을 제시한다. 다양한 가정 하에서 계산된 p‑값과 사후 확률은 무덤이 신약 가족과 연관될 가능성이 낮으며, 관측된 이름 조합이 우연히 나타날 확률이 충분히 크다고 결론짓는다.
저자: Holger H"ofling, Larry Wasserman
본 논문은 안드레이 퓌버거가 2008년 발표한 “신약 가족 무덤”에 대한 통계적 분석을 비판적으로 재검토한다. 서두에서 저자들은 퓌버거가 제시한 문제의 복잡성과 데이터 사후 탐색의 위험성을 강조하며, 통계적 가정이 결과에 미치는 영향을 신중히 다루었다는 점을 인정한다. 그러나 퓌버거가 사용한 RR(Rare‑Ratio) 통계량이 이름 변형을 과도하게 세분화함으로써 p‑값을 인위적으로 낮추는 구조적 결함이 있음을 지적한다.
첫 번째 섹션에서는 “놀라운 사건”을 정의하는 일반적인 절차를 제시한다. 샘플 공간 X를 정의하고, 관심 있는 결과 집합 A를 식별한 뒤, 귀무분포 P₀를 설정하고 p‑값 p=P₀(A)를 계산한다. 여기서 가장 어려운 단계는 A를 정의하는데, 이는 실제 관측된 사건이 발생했을 때만 의미가 있기 때문에 반사실적이다.
두 번째 섹션에서는 퓌버거의 접근법을 상세히 설명한다. 그는 이름을 광범위한 카테고리에서 세부 변형까지 모두 구분하고, 각 변형에 대해 무작위 추출 확률을 계산한다. 이때 “Mariamenou η Mara”와 같은 특수 변형이 RR 통계량에 큰 영향을 미쳐, 전체 p‑값이 매우 작아진다. 저자들은 이를 예시로 들어, A, B, C 세 이름이 각각 1/3 빈도를 갖는 모집단에서 A를 A₁과 A₂로 나누면 p‑값이 2/3에서 1/9로 급격히 감소한다는 점을 보여준다. 이는 변형 자체가 통계적 의미를 갖는 것이 아니라, 변형을 고려함으로써 사건 집합 A가 확대되었기 때문이다.
세 번째 섹션에서는 저자들이 제안하는 보다 보수적인 빈도주의 접근을 소개한다. 여기서는 “관심 있는 이름 집합” S를 미리 정의하고, 여러 무덤을 동시에 고려한다. 무덤 B_i가 S와 충분히 겹치면 사건 A_i로 정의하고, 각 무덤이 독립적으로 발생할 확률 π_i를 계산한다. 전체 p‑값은 p=1−∏_{i=1}^N(1−q(n_i,π_i)) 형태이며, q는 n_i−1개의 이름 중 최소 3개가 S에 속하고 “예수”가 포함될 확률을 이항분포로 모델링한다. 저자들은 N=100(발굴된 무덤 비율 10%), n_i=6을 가정하고, 남녀 비율을 동일하게 할 경우 ν≈0.354, π≈0.005 등 다양한 조합을 시뮬레이션한다. 결과는 p값이 0.393, 0.183, 0.290, 0.158 등으로, 어느 경우에도 통계적으로 유의미한 수준(0.05) 이하가 아니다.
네 번째 섹션에서는 베이지안 분석을 수행한다. 사전 확률 P(θ=1)=t/N을 t=1(가장 낙관적)로 두고, θ=1은 무덤이 신약 가족에 속함, θ=0은 일반 인구에 속함을 의미한다. 데이터 x는 이름 조합이며, P(x|θ)는 이름 카테고리와 변형에 대한 조건부 확률로 분해한다. 저자들은 두 가지 단순화 가정을 둔다: (1) 무덤의 구성과 혈통은 신약 가족과 일반 인구가 동일, (2) 이름 변형도 두 집단에서 동일하게 발생한다. 이러한 가정 하에 사후 확률은 P(θ=1|x)=P(x|θ=1)P(θ=1)/
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기