교차표에서 동질성 가정의 유의성 검정
초록
본 논문은 두 변수의 교차표에서 열 합계가 고정된 “동질성” 모델을 검정할 때, 전통적인 카이제곱·G·Freeman‑Tukey 등과 비교해 유클리드(프루베니우스) 거리(또는 힐버트‑슈미트 거리)가 통계적 검정력에서 우수함을 실증한다. 시뮬레이션과 실제 데이터 사례를 통해 거리 기반 검정이 작은 표본·희소 셀 상황에서도 강건하게 작동함을 보여준다.
상세 분석
논문은 먼저 동질성 가정과 독립성 가정의 차이를 명확히 정의한다. 독립성 모델은 행·열 합계가 모두 고정된 다항분포를 전제로 하는 반면, 동질성 모델은 열 합계만 고정하고 행 합계는 자유롭게 변한다는 점에서 확률 구조가 달라진다. 기존 문헌에서는 이러한 두 모델을 검정할 때 주로 카이제곱 통계량(χ²), 로그우도비(G), 그리고 Cressie‑Read 계열(λ=2/3,1 등)의 파워다이버전스가 사용되어 왔으며, 특히 셀 빈도가 작을 때는 검정력 저하와 근사오차가 문제시되어 왔다.
최근 연구에서 Euclidean/Frobenius/Hilbert‑Schmidt 거리 ‖p̂−p₀‖₂가 독립성 검정에서 뛰어난 검정력을 보인 것이 보고되었는데, 저자는 이를 동질성 검정으로 확장한다. 구체적으로, 관측 빈도 행렬 O와 기대 빈도 행렬 E(열 합계 고정, 행 비율 동일 가정) 사이의 제곱합 차이 D_Euc = Σ_{i,j}(O_{ij}−E_{ij})²를 검정통계량으로 채택한다. 이 통계량은 표본공간이 고정된 열 합계 하에서의 최소제곱 추정과 동일한 의미를 갖으며, 대수적 형태가 단순해 Monte‑Carlo 시뮬레이션이나 정확한 순열 검정에 용이하다.
통계적 특성을 분석하기 위해 저자는 (1) 대수적 근사(중심극한정리 기반)와 (2) 부트스트랩·순열 기반의 경험적 분포를 모두 검토한다. 특히, 열 합계가 고정된 다항분포에서 D_Euc의 기대값과 분산을 구하고, 이를 χ² 자유도와 비교함으로써 기존 검정통계량과의 차이를 정량화한다. 결과는 D_Euc가 표본 크기가 작거나 셀 빈도가 5 이하인 경우에도 χ²보다 높은 검정력을 유지한다는 점을 보여준다.
시뮬레이션 설계는 (i) 다양한 행·열 차원(2×2, 3×4, 5×5 등), (ii) 균등·비균등 행 비율, (iii) 열 합계 비율을 변동시키는 시나리오, (iv) 신호 강도(대안 가설 하의 행 비율 편차) 조절을 포함한다. 각 시나리오마다 10,000번 반복 샘플링을 수행하고, 5% 유의수준에서 검정력(power)을 추정한다. 전반적으로 D_Euc는 특히 “희소 셀” 상황에서 10~30% 정도의 검정력 향상을 보였으며, 이는 실제 데이터(예: 의료 진단 교차표, 설문 응답 교차표)에서도 재현되었다.
또한, 저자는 검정통계량의 해석적 장점도 강조한다. Euclidean 거리 자체가 “전체 빈도 행렬이 기대 행렬으로부터 얼마나 멀리 떨어져 있는가”를 직관적으로 나타내므로, 연구자는 결과를 시각화하거나 효과 크기를 보고서에 직접 삽입하기가 용이하다. 반면, χ²는 자유도에 따라 스케일이 변하고, G 통계는 로그 변환으로 인해 해석이 복잡해진다.
마지막으로, 논문은 실무 적용을 위한 가이드라인을 제시한다. (1) 열 합계가 사전에 고정된 실험 설계(예: 다중 치료군 비교)에서는 D_Euc를 기본 검정통계량으로 채택하고, (2) 표본이 충분히 크지 않을 경우 Monte‑Carlo 순열 검정을 병행해 정확한 p‑값을 얻으며, (3) 기존 χ² 검정과 병행해 결과 일관성을 확인하는 것이 권장된다. 이러한 절차는 통계 소프트웨어(R, Python)에서 간단히 구현 가능하도록 코드 스니펫도 제공한다.
요약하면, 동질성 검정에서 Euclidean/Frobenius 거리 기반 검정은 전통적인 파워다이버전스 검정보다 전반적으로 높은 검정력을 제공하며, 특히 작은 표본·희소 데이터 상황에서 실용적인 대안이 될 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기