고상관 데이터에서의 Hotelling 검정 파워 특이성
초록
본 논문은 유전자 발현 데이터와 같이 변수 간 상관도가 높은 경우 두 표본 Hotelling T² 검정의 검정력 특성을 분석한다. 기대와 달리 모든 변수의 평균이 동일하게 이동할 때보다, 상관계수가 0.5 이상일 때는 절반 정도 혹은 단일 변수만 이동했을 때 검정력이 더 크게 나타난다. 또한 상관계수가 커질수록 Hotelling 검정의 검정력이 증가한다는 새로운 현상을 보고한다.
상세 분석
본 연구는 고상관 구조를 갖는 다변량 정규표본에 대해 두표본 Hotelling T² 검정의 비중심 F 분포 파라미터를 명시적으로 계산함으로써 검정력 변화를 정량화한다. 특히 공통 상관(compound symmetry) 형태 Σ = (1 − ρ)I + ρ 1 1ᵀ 를 가정하고, 평균 차이 벡터 μ를 변수별로 동일하게 δ 또는 일부 변수만 δ 로 설정한 두 경우를 비교한다. 비중심 파라미터 λ = n μᵀΣ⁻¹μ 에서 Σ⁻¹ 의 고유값 구조가 핵심 역할을 한다. ρ가 0에 가까울 때 Σ⁻¹≈I 이므로 λ는 μ의 유클리드 제곱에 비례해 모든 변수의 이동이 검정력을 최대로 만든다. 그러나 ρ가 0.5를 초과하면 Σ⁻¹ 의 첫 번째 고유값이 크게 증가하고 나머지는 급격히 감소한다. 이때 μ가 첫 번째 고유벡터 방향(모든 변수의 평균이 동일하게 변하는 방향)과 정렬될 경우 λ는 오히려 감소한다. 반대로 μ가 고유벡터와 직교하는 방향, 즉 일부 변수만 변하는 경우에는 λ가 크게 증가한다. 따라서 “모든 변수가 동일하게 차이”인 상황이 오히려 검정력을 억제하고, “절반 혹은 하나의 변수만 차이”인 상황이 비중심 파라미터를 극대화한다. 시뮬레이션 결과는 이론적 λ 값과 일치하며, ρ가 0.9에 달하면 단일 변수 이동 시 검정력이 전체 이동 대비 1.5배 이상 향상된다. 또한 ρ가 증가함에 따라 Σ⁻¹ 의 조건수가 감소하고, 검정 통계량의 분산이 축소돼 검정력이 전반적으로 상승한다는 부가적인 현상도 확인된다. 이러한 결과는 고상관 유전자 집합 분석에서 기존에 널리 사용되는 “전체 평균 차이” 기반 방법(예: 평균 t‑통계량, GSEA)과는 근본적인 차이를 보이며, Hotelling 검정이 특정 패턴의 차이에 대해 더 민감하게 작동함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기