전처리된 파생결과를 이용한 인과추론: 기능적 연결성 적용
초록
본 논문은 피험자별 사전 처리(노이즈 제거·동작 보정) 후 얻은 파생결과를 활용해 인과효과를 추정하는 반반모수적 프레임워크를 제안한다. 모듈식 구조와 다중 강건(multiply robust) 추정량을 도입해 인트라‑서브젝트와 인터‑서브젝트 모델 모두에 머신러닝을 적용할 수 있게 하였으며, 매개효과 분석에서 자연직접효과(NDE)를 중심으로 이론적 정당성을 확보한다. 고차원 검정에서는 거짓발견비(FDP) 초과율을 제어하는 단계‑하강 절차를 사용한다. 시뮬레이션과 자폐아동의 휴식‑상태 fMRI 데이터를 통한 실증 분석을 통해 기존 방법보다 우수한 성능을 보인다.
상세 분석
이 연구는 “파생결과(derived outcome)”라는 개념을 기존 인과추론에 통합함으로써, 피험자 수준에서 수행되는 복잡한 전처리 과정이 전체 인과 분석에 미치는 영향을 체계적으로 규명한다. 핵심은 두 단계로 구성된 계층적 모델이다. 첫 번째 단계에서는 각 피험자에 대해 반복 측정값 Xₜ와 보조 변수 Hₜ를 이용해 f(Hₜ)라는 노이즈 제거 함수를 학습하고, 잔차 Xₜ−f(Hₜ)를 얻는다. 두 번째 단계에서는 이러한 잔차를 g(·)라는 함수에 투입해 다차원 파생결과 Y를 생성한다. 여기서 g는 Pearson 상관을 Fisher‑z 변환한 형태 등 연구 목적에 맞게 정의될 수 있다.
논문은 이 구조 하에서 인과효과, 특히 매개효과 분석에서 자연직접효과(NDE)와 자연간접효과(NIE)를 정의하고, 이를 식별하기 위한 일련의 가정(일관성, 무조건적 무시가능성, 잠재 요인 독립성 등)을 명시한다. 가장 혁신적인 부분은 “다중 강건(multiply robust)” 추정량을 설계한 점이다. 전통적인 이중 강건(double robust) 추정량이 두 개의 보조 모델(처리 확률과 결과 회귀) 중 하나만 정확하면 일관성을 유지하는 반면, 여기서는 인트라‑서브젝트 모델(노이즈 제거 함수 f와 결과 함수 g)과 인터‑서브젝트 모델(처리·매개·결과 회귀) 각각에 대해 두 개씩, 총 네 개의 보조 모델을 고려한다. 어느 하나라도 올바르게 지정되면 추정량은 일관성을 유지한다. 이는 머신러닝 기반 비정형 모델을 자유롭게 도입하면서도, 각 모델이 n⁻¹/²보다 느린 수렴률을 보이더라도 전체 추정량의 √n‑정규성을 확보한다는 강력한 이론적 보장을 제공한다.
또한 고차원 상황에서 다수의 연결성 지표를 동시에 검정할 때, 단계‑하강(step‑down) 절차를 적용해 거짓발견비(FDP)의 초과율을 제어한다. 이는 기존의 FDR 제어 방법보다 보수적이면서도 검정력 손실을 최소화한다는 장점이 있다.
시뮬레이션에서는 다양한 전처리 오류(예: 과도한 스크러빙, 데이터 손실)와 머신러닝 기반 노이즈 제거를 조합한 경우를 모의실험했으며, 제안된 추정량이 편향과 평균제곱오차 면에서 기존 IPW·이중강건 방법을 크게 앞선다. 실제 데이터 분석에서는 자폐 스펙트럼 장애(ASD) 아동의 휴식‑상태 fMRI를 대상으로, 약물(자극제) 복용 여부가 뇌 기능적 연결성에 미치는 직접효과를 추정했다. 전통적인 전처리 파이프라인 대신 딥러닝 기반 모션 보정 모델을 적용함으로써 데이터 손실을 최소화하고, 결과적으로 약물의 직접적인 연결성 감소 효과를 통계적으로 유의하게 확인하였다.
이 논문은 (1) 파생결과를 이용한 인과추론의 이론적 기반을 확립, (2) 인트라‑서브젝트 전처리와 인터‑서브젝트 인과 모델을 동시에 다루는 반반모수적 추정법을 제시, (3) 다중 강건성을 통해 모델 오차에 대한 내성을 강화, (4) 고차원 검정에서 FDP 초과율을 제어하는 절차를 제공함으로써, 현대의 복잡한 생물·의료 데이터 분석에 실용적이고 신뢰할 수 있는 도구를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기