결측 공변량을 고려한 평균 처리 효과 추정에 대한 분수 임퓨테이션

본 논문은 관측 데이터에서 공변량이 MAR(결측이 조건부 무작위) 패턴을 보일 때, 평균 처리 효과(ATE)를 추정하기 위한 분수 임퓨테이션(Fractional Imputation, FI) 방법을 제안한다. FI는 다중 임퓨테이션(MI)의 비합치성(congeniality) 문제를 회피하면서, 추정량의 일관성·점근 정규성을 보장하고, 변량 추정도 일관적으로 수행한다. 시뮬레이션과 실제 데이터 분석을 통해 FI가 MI와 완전 사례 분석(CC)에 비…

저자: Nathan Corder, Shu Yang

결측 공변량을 고려한 평균 처리 효과 추정에 대한 분수 임퓨테이션
본 논문은 관찰 연구에서 흔히 발생하는 공변량의 결측 문제를 다루면서, 평균 처리 효과(ATE)를 정확히 추정하기 위한 새로운 방법론인 분수 임퓨테이션(Fractional Imputation, FI)을 제안한다. 서론에서는 무작위 실험이 어려운 상황에서 관찰 데이터를 활용해 인과 효과를 추정하려면 ‘무조건부 무작위성(ignorability)’과 ‘충분한 겹침(sufficient overlap)’이라는 두 가지 핵심 가정이 필요함을 강조한다. 그러나 실제 데이터에서는 공변량이 MAR(Missing At Random) 혹은 MNAR(Missing Not At Random) 패턴을 보이며, 특히 MAR 가정 하에서 결측을 적절히 처리하지 않으면 편향된 추정량과 부정확한 변량 추정이 발생한다. 전통적으로 결측을 다루는 방법으로는 완전 사례 분석(Complete Case, CC)와 다중 임퓨테이션(Multiple Imputation, MI)이 있다. CC는 결측이 있는 관측치를 완전히 제외하기 때문에 효율성이 크게 떨어지고, MAR 하에서는 편향을 유발한다. MI는 결측값을 여러 번(보통 M=5~10) 임퓨테이션하고, Rubin의 결합 규칙을 사용해 추정량과 변량을 통합한다. 그러나 MI가 인과 추정에 적용될 때는 ‘적절성(properness)’과 ‘합치성(congeniality)’이라는 두 가지 조건이 충족돼야 한다. 특히, 평균 처리 효과를 추정하는 IPW·AIPW와 같은 방법은 일반적인 방법론적 모멘트 추정에 기반하므로, MI와의 합치성이 깨지는 경우가 빈번하다. 이때 Rubin의 변량 추정식은 일관되지 않아 신뢰구간이 과소 혹은 과대 평가될 위험이 있다. 이에 대한 대안으로 제시된 것이 분수 임퓨테이션이다. FI는 EM 알고리즘의 E‑단계에서 중요도 샘플링을 이용해 결측값을 여러 개 생성하고, 각 임퓨테이션에 ‘분수 가중치’를 부여한다. 이렇게 하면 하나의 완전 데이터셋에 가중치만 달리 적용하는 형태가 되며, 관측가능한 우도(likelihood)를 가중 평균으로 근사한다. FI는 Monte Carlo EM에서 발생하는 반복적인 샘플링 비용을 크게 절감하고, 고정된 샘플 크기에서도 수렴성을 보장한다. 또한, FI로 얻은 완전 데이터와 가중치는 기존에 개발된 다양한 인과 추정기(IPW, AIPW, 매칭, 서브클래시피케이션 등)를 그대로 적용할 수 있게 해, 별도의 결합 규칙을 설계할 필요가 없다. 이론적 부분에서는 FI 기반 ATE 추정량이 점근적으로 정규분포를 따르고, 일관된 변량 추정식이 존재함을 증명한다. 구체적으로, 추정량은 ‘추정 함수 U(τ;X,A,Y|η)’의 해로 표현되며, FI는 이 함수에 대해 가중된 평균을 사용해 근사한다. 결과적으로 추정량은 선형화 가능(linearizable)하고, 부트스트랩이나 잭knife을 통한 재표본화 방법으로 변량을 일관되게 추정할 수 있다. 시뮬레이션 연구에서는 공변량 결측 비율을 10%, 20%, 30%로 변동시키고, 다양한 데이터 생성 메커니즘(연속형·이분형, 선형·비선형) 하에서 FI, MI, CC의 성능을 비교했다. 평가 지표는 평균 절대 편차(MAE), 평균 제곱 오차(MSE), 그리고 95% 신뢰구간 커버리지였다. 전반적으로 FI는 MI보다 편향이 현저히 작고, 변량 추정의 커버리지가 목표 수준에 가장 가깝게 유지되었다. 특히 결측 비율이 높아질수록 FI의 효율성 우위가 두드러졌다. 실제 데이터 적용 사례로는 미국 국민건강조사(NHANES) 데이터를 사용했다. 여기서 흡연 여부를 치료 변수, 혈압을 결과 변수로 두고, 연령, 성별, 운동량, 식이 습관 등 여러 생활 습관 변수를 공변량으로 포함했으며, 일부 변수에 결측이 존재한다. FI를 적용한 AIPW 추정량은 MI 기반 추정량에 비해 더 좁은 95% 신뢰구간을 제공하면서도 평균 추정값은 일관되게 나타났다. 이는 FI가 실제 연구에서도 변량 추정의 정확성을 유지하면서 효율적인 추정을 가능하게 함을 보여준다. 결론적으로, 본 논문은 결측 공변량이 존재하는 인과 추정 문제에 대해, 기존 MI가 갖는 이론적 한계(특히 합치성 문제)를 근본적으로 해결하고, 계산 효율성까지 겸비한 새로운 방법론을 제시한다. FI는 하나의 완전 데이터셋과 가중치만으로 다양한 인과 추정기를 적용할 수 있게 함으로써, 실무 연구자들이 복잡한 결측 구조를 가진 데이터에서도 신뢰할 수 있는 평균 처리 효과 추정을 수행하도록 돕는다. 향후 연구에서는 MNAR 상황에 대한 확장과, 고차원 공변량(예: 유전체 데이터)에서의 적용 가능성을 탐색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기