블록 결측을 고려한 다중소스 데이터 두 표본 검정
초록
본 논문은 다중소스·다중모달 데이터에서 전체 모달리티가 일부 소스에만 존재하는 블록 결측 상황을 직접 다루는 일반 프레임워크 BPET(Block‑Pattern Enhanced Test)를 제안한다. BPET는 결측 패턴별로 조건부 분포를 이용해 통계량을 만들고, 이를 전역 검정통계량으로 결합한다. 프레임워크 위에 비모수적인 그래프 기반 검정인 BRISE(Block‑wise Rank In Similarity graph Edge‑count)를 설계하여 이질적인 모달리티를 순위‑가중 유사도 그래프로 통합한다. 이론적으로 BRISE는 영가설 하에 χ² 분포로 수렴하고, 표준 및 고차원·소표본 환경 모두에서 일관성을 보인다. 또한 결측 패턴을 층화한 “패턴‑와이즈 퍼뮤테이션”을 제시해 유한표본에서도 정확한 p‑값을 제공한다. 시뮬레이션과 실제 ADNI·다중소스 데이터 분석을 통해 유형Ⅰ 오류 제어와 높은 검정력을 확인하였다.
상세 분석
본 연구는 두 표본 검정에 있어 기존 결측 처리 방식(단순 대치, 완전 사례 분석, 전통적 퍼뮤테이션)이 블록 결측, 특히 결측이 무작위가 아닌(MNAR) 경우에 갖는 근본적인 한계를 정확히 짚어낸다. 저자들은 “블록‑패턴 강화 검정(BPET)”이라는 일반 프레임워크를 고안하여, 데이터 전체를 결측 패턴별로 분할하고, 각 패턴 내에서 공유된 모달리티만을 이용해 거리(또는 유사도) 함수를 정의한다. 핵심 아이디어는 영가설 하에 두 집단이 동일한 조건부 분포를 가진다면, 패턴별 통계량을 독립적으로 계산해도 전역 검정에 편향을 일으키지 않는다는 점이다. 이는 기존 MCAR 가정보다 훨씬 완화된 가정이며, 결측 패턴 자체가 그룹에 따라 다를 수 있음을 허용한다(MNAR).
거리 정의는 ρₗ(·,·)와 정규화 함수 Norm을 통해 일반화되었으며, 유클리드 거리, 그래프 확산 거리, 코사인 유사도 등 다양한 데이터 유형에 적용 가능하도록 설계되었다. 공유 모달리티가 전혀 없는 경우에는 0을 할당하는 단순 전략을 기본으로 두지만, 보조 자료에서는 간접 비교를 활용한 확장 방안도 제시한다.
BPET 위에 구체적인 검정통계량으로 BRISE를 도입한다. BRISE는 기존 RISE( Rank‑In Similarity Edge‑count) 검정의 아이디어를 차용해, 각 관측치 간의 순위‑가중 유사도 그래프를 구축하고, 그래프의 엣지 카운트를 기반으로 두 표본 간 차이를 측정한다. 블록‑패턴 구조를 반영해 패턴별 그래프를 만든 뒤, 이를 χ² 형태의 전역 통계량으로 합산한다. 이 과정에서 패턴별 표본 크기 차이를 보정하기 위해 가중치를 적용한다.
이론적 기여는 크게 세 가지이다. 첫째, 영가설 하에 전역 통계량이 χ² 분포로 수렴한다는 정규성 결과를 증명했으며, 이는 패턴‑와이즈 퍼뮤테이션을 통해 유한표본에서도 근사 가능함을 보였다. 둘째, 고차원·소표본 상황에서도 일관성을 유지한다는 점을, 차원·표본 비율이 일정한 고정된 한계 하에서 검정력 상한을 제시함으로써 입증했다. 셋째, 표준 퍼뮤테이션이 결측 패턴 분포가 그룹 간에 다를 때 유형Ⅰ 오류가 크게 증가함을 정리(정리 1)하고, 패턴‑와이즈 퍼뮤테이션이 이러한 문제를 해결한다는 충분조건(정리 2)을 제시했다.
실험에서는 다양한 결측 패턴(7가지)과 모달리티 조합을 시뮬레이션했으며, BRISE가 기존 그래프 기반 검정(예: FR‑test, Energy test)과 비교해 유형Ⅰ 오류를 정확히 유지하면서도 검정력이 현저히 높았다. 실제 데이터에서는 ADNI의 영상·유전·임상 데이터와 다중기관 임상 기록을 사용해, 두 집단(예: 알츠하이머 환자 vs 정상) 간 차이를 성공적으로 검출했으며, 결측 패턴이 심하게 불균형인 상황에서도 안정적인 결과를 보였다.
한계점으로는 (1) 패턴이 매우 많아질 경우(예: L이 커져 2ᴸ‑1에 근접) 패턴별 표본 크기가 극히 작아져 통계량의 분산 추정이 불안정해질 수 있다. (2) 공유 모달리티가 전혀 없는 관측쌍에 대해 0을 할당하는 현재 전략이 특정 상황(예: 중요한 정보가 전혀 겹치지 않을 때)에서 검정력을 저하시킬 가능성이 있다. (3) 비선형·비정규 데이터에 대한 거리 선택이 검정 결과에 큰 영향을 미치므로, 실무에서는 사전 탐색이 필요하다. 전반적으로 BPET와 BRISE는 블록 결측·다중모달 데이터 분석에 새로운 표준을 제시하며, 향후 확장 연구(예: 다중표본 검정, 베이지안 프레임워크)에도 활용 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기