잠재 요인 보정으로 고차원 매개효과 다중검정

초록

본 연구는 매개변수 모델에서 관측되지 않은 공통 요인으로 인한 복잡한 상관구조를 고려하여, 개별 매개효과에 대한 대규모 검정을 수행한다. 근사 요인 구조를 추정하고, 이를 이용해 의사 매개변수를 생성한 뒤, 디베이어드 추정량을 구축함으로써 비정규성 및 의존성에 강인한 FDR 제어 절차를 제시한다. 이론적 정규성 증명과 시뮬레이션, 실제 TCGA‑BRCA 및 중국 주식연결 데이터 적용을 통해 방법의 유효성을 입증한다.

상세 분석

본 논문은 고차원 매개분석에서 개별 매개변수의 통계적 검정이 흔히 직면하는 ‘공통 요인에 의한 의존성’ 문제를 해결하고자 한다. 전통적인 디베이어드(Lasso 기반) 추정법은 오차항이 독립이라는 가정 하에 비편향성을 확보하지만, 실제 다중오믹스나 금융 데이터에서는 여러 매개변수가 동일한 잠재 요인(예: 배치 효과, 시장 전반적 변동)으로 인해 강하게 상관된다. 이러한 상황에서 기존 검정은 p값이 과소평가되어 FDR가 급격히 상승한다.

논문은 먼저 매개변수 모델 (M = X\beta + \Lambda f + \epsilon) 형태의 근사 요인 구조를 가정한다. 여기서 (\Lambda)는 매개변수별 요인 적재행렬, (f)는 저차원 잠재 요인, (\epsilon)는 독립 잡음이다. 고차원 상황에서도 PCA 혹은 POET과 같은 고차원 요인 추정 기법을 이용해 (\hat f)와 (\hat\Lambda)를 일관적으로 추정한다. 이후 원래 매개변수를 (\tilde M = M - \hat\Lambda \hat f) 로 변환함으로써, 공통 요인에 의해 유발된 상관성을 크게 제거한다. 이 과정을 ‘pseudo‑mediator’ 생성이라 부른다.

다음 단계에서는 각 pseudo‑mediator에 대해 디베이어드 추정량을 구성한다. 구체적으로, 원인 변수 (X)와 결과 변수 (Y) 사이의 직접 효과와 매개효과를 동시에 추정하기 위해 두 단계 회귀를 수행하고, Lasso 추정의 편향을 보정하기 위해 노이즈 수준을 추정한 뒤 역공분산 행렬을 이용한다. 저자들은 이 추정량이 (\sqrt{n}) 스케일에서 정규분포를 따른다는 정리를 증명했으며, 요인 추정 오차가 1/√n 이하로 수렴한다는 ‘고차원 요인 추정의 일관성’ 가정 하에 asymptotic variance를 정확히 계산한다.

정규성 확보 후, 다중 검정에서는 베이즈형 FDR 조절 절차인 ‘Benjamini–Hochberg (BH)’를 그대로 적용할 수 있다. 하지만 요인 보정이 이루어졌으므로, BH 절차가 요구하는 p값의 독립성 혹은 양의 종속성 가정이 실질적으로 만족한다. 저자들은 ‘Factor‑Adjusted BH (FA‑BH)’ 라는 변형을 제안했으며, 이 방법이 기존 디베이어드 검정 대비 FDR를 명목 수준 이하로 유지하면서도 검정력(power)을 크게 향상시킴을 이론적 경계와 시뮬레이션을 통해 입증한다.

시뮬레이션에서는 요인 수, 요인 강도, 매개변수 sparsity, 신호 대 잡음비(SNR) 등을 다양하게 변형하였다. 특히 요인 강도가 0.7 이상인 경우 기존 방법은 FDR가 30% 이상까지 폭발하지만, FADMT는 5% 이하로 안정적으로 유지한다. 검정력 측면에서도 신호가 약한 상황에서 10~15% 정도의 절대적 향상을 보인다.

실제 데이터 적용에서는 TCGA‑BRCA 다중오믹스(유전체, 전사체, 메틸화)와 중국 ‘Stock Connect’ 데이터(주식 가격, 거래량, 정책 변수)를 분석하였다. 전자는 암 치료와 연관된 특정 유전자‑메틸화 매개경로를, 후자는 국제 자본 흐름에 영향을 미치는 정책‑시장 매개경로를 각각 식별했으며, 기존 방법이 제시한 후보보다 더 해석 가능하고 생물학적/경제적 타당성을 가진 결과를 도출했다.

결론적으로, 본 논문은 고차원 매개분석에서 흔히 간과되는 공통 요인 의존성을 명시적으로 모델링하고, 이를 보정한 뒤 디베이어드 추정과 다중 검정을 결합함으로써, 이론적 정밀도와 실용적 검정력을 동시에 확보한 새로운 프레임워크를 제시한다.