연합 인과 추론을 위한 다기관 관찰 데이터의 Propensity Score 집계
초록
본 논문은 개별 데이터가 분산된 여러 의료기관에서 평균 처리 효과(ATE)를 추정하기 위해, 개별 사이트의 propensity score를 회원 가중치(Membership Weights)를 이용해 연합적으로 결합하는 방법을 제안한다. 연합 IPW(Fed‑IPW)와 연합 AIPW(Fed‑AIPW) 추정량을 정의하고, 기존 메타‑분석 방식이 요구하는 각 사이트별 양성 가정(positivity)을 완화하면서도 추정 효율성을 높이는 이론적·실험적 결과를 제시한다.
상세 분석
이 연구는 전통적인 중앙집중식 인과 추론이 불가능한 상황, 즉 개인정보 보호·법적 제약으로 데이터가 각 기관에 머물러 있는 경우를 목표로 한다. 핵심 아이디어는 각 사이트에서 로컬 propensity score (e_k(x)=P(W=1|X=x,H=k)) 를 독립적으로 학습한 뒤, 전역 propensity score (e(x)) 를 “회원 가중치”(Membership Weights, MW) (\omega_k(x)=P(H=k|X=x)) 로 가중 평균한다는 점이다. MW는 사이트 소속을 예측하는 이진(다중) 분류 문제로 전환될 수 있으며, 로지스틱 회귀, 신경망, 그래디언트 부스팅 등 비선형 모델을 연합 학습(Federated Learning) 프레임워크 내에서 효율적으로 추정한다.
이때 DW(density‑ratio weights)와 달리 MW는 별도의 밀도 추정 없이 직접 확률을 학습하므로 고차원 공변량에서도 안정적이며, 통신 비용도 낮다. 전역 propensity score가 확보되면 기존 IPW와 AIPW 공식에 그대로 대입해 Fed‑IPW와 Fed‑AIPW 추정량을 구성한다. 중요한 점은 전역 겹침(global overlap) 가정만 필요하다는 것이다. 개별 사이트가 치료 할당 확률이 0 혹은 1에 가까워도, 다른 사이트와의 조합을 통해 전체 데이터 공간에서 충분한 겹침을 확보할 수 있다. 이는 메타‑분석이 각 사이트별 겹침을 전제하고, 겹침이 깨질 경우 추정이 불가능하거나 편향이 발생하는 문제를 근본적으로 해결한다.
이론적으로는 두 추정량이 각각 (\sqrt{n}) 수렴성을 갖고, asymptotic variance는 메타‑분석 대비 동일하거나 더 작음이 증명된다. 특히 Fed‑AIPW는 이중 강건성(double robustness)을 유지해, propensity model 혹은 outcome model 중 하나만 올바르면 일관성을 보장한다.
실험에서는 시뮬레이션과 실제 의료 데이터(예: 다기관 전자건강기록)를 사용해, (1) 사이트별 샘플 크기·치료 정책·공변량 분포가 크게 이질적인 경우, (2) 일부 사이트가 완전 양성 위반(모두 치료 혹은 모두 대조)인 경우를 포함했다. 결과는 Fed‑IPW/AIPW가 메타‑분석보다 평균 제곱 오차가 현저히 낮고, 신뢰구간 커버리지가 기대 수준에 가깝다는 것을 보여준다. 또한 통신 비용 측면에서, MW를 추정하기 위한 라운드 수와 전송되는 파라미터 양이 기존 전역 로지스틱 회귀 기반 방법보다 효율적이었다.
이 논문의 주요 공헌은 (i) 사이트별 모델 자유도를 보존하면서도 전역 propensity score를 정확히 재구성하는 MW 기반 프레임워크, (ii) 전역 겹침만을 요구함으로써 양성 위반 상황에서도 안정적인 인과 추정이 가능하도록 한 점, (iii) 연합 학습 환경에 맞춘 통신 효율적인 구현과 이론·실험을 겸비한 종합적 검증이다. 향후 연구는 다중 치료(다중 레벨) 상황, 시간에 따라 변하는 정책, 그리고 비정형 데이터(이미지·텍스트)와의 연계에 확장할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기