자기마스킹 결측 혼동변수를 위한 층화 델타 보정 추정법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

관찰연구에서 자기마스킹(MNAR) 결측 혼동변수가 존재할 때, 데이터를 관측·결측 두 그룹으로 층화하고, 델타-조정 다중보간을 통해 결측값을 보정한 뒤, 각 그룹별로 안정화된 역확률 가중법(IPW)으로 평균처치효과(ATE)를 추정한다. 시뮬레이션과 NHANES 실증분석에서 편향이 거의 없고 95% 신뢰구간 커버리지가 명목 수준에 근접함을 확인하였다.

상세 분석

본 논문은 자기마스킹(self‑masking) 메커니즘, 즉 결측 여부가 해당 혼동변수 자체값에만 의존하는 MNAR 상황을 다루는 최초의 실용적 추정법을 제시한다. 기존 연구들은 보통 결측 메커니즘이 처리 변수나 결과와 독립적이라는 강한 가정을 두거나, 식별가능성을 확보하기 위해 복잡한 EM‑기반 최대우도 추정, 혹은 비모수적 2단계 최소제곱법을 사용한다. 그러나 이러한 방법들은 실제 데이터에서 검증하기 어려운 전제에 크게 의존한다는 한계가 있다.

SDIPE는 이러한 제약을 완화한다. 첫 단계에서 관측된 혼동변수와 결측된 혼동변수를 각각 “Observed”와 “Missing” 두 층으로 분리한다. 두 층은 결측 메커니즘이 서로 다르므로 별도로 추정하는 것이 통계적 효율성을 높인다. 결측층에 대해서는 다중보간(MI)을 적용하되, MAR 가정을 완화하기 위해 델타(Δ) 파라미터를 도입한다. Δ는 관측값 평균과 결측값 평균 사이의 위치 이동을 의미하며, 연구자가 사전 지식이나 민감도 분석을 통해 여러 값으로 탐색할 수 있다. 이때 사용된 선형 회귀 기반 보간 모델은 혼동변수 Z와 치료 T, 결과 Y를 모두 포함하므로, 보간 과정에서 잠재적인 교란을 최소화한다.

보간이 완료된 후, 각 층별로 안정화된 역확률 가중치(stabilized IPW)를 계산한다. 가중치는 치료 할당 확률을 추정한 propensity score와 역확률을 곱해 만든 것으로, 극단적인 가중치가 발생하는 것을 방지한다. 이렇게 얻은 두 층의 ATE 추정값을 샘플 내 비율로 가중 평균하면 전체 ATE가 도출된다.

시뮬레이션 결과는 네 가지 주요 변수를 체계적으로 변동시켰다(치료 비율 20%·40%, 표본 크기 500·1000, 결측 비율 10%·30%·50%). SDIPE는 모든 경우에서 평균 편향이 0.5% 이하로 거의 무편향에 가깝고, 95% 신뢰구간 커버리지는 0.92~0.96으로 명목 수준을 충족했다. 반면, 기존 민감도 기반 다중보간은 편향이 5%~~16%에 달하고, 커버리지는 0.18~~0.89로 크게 떨어졌다. Δ값을 다양하게 바꾸어도 추정 편향은 미미하게 변동했으며, 큰 표본에서는 더욱 안정적인 결과를 보였다.

실증 적용에서는 NHANES 2017‑2018 데이터를 사용해 결혼 여부가 우울점수(PHQ‑9)에 미치는 인과효과를 추정했다. 소득‑빈곤 비율이 자기마스킹 결측을 보였으나, SDIPE를 적용한 결과 결혼이 우울점수를 1.19점 낮춘다는 추정치(95% CI: -1.76, -0.64)를 얻었다. 이는 기존 완전사례 분석이나 MAR 가정 하의 다중보간보다 신뢰성이 높으며, 정책적 해석에 직접 활용 가능하다.

이 논문의 주요 기여는 (1) 자기마스킹 MNAR 상황을 층화와 Δ‑보정 보간으로 간단히 해결한 점, (2) 기존 방법 대비 편향·커버리지 면에서 현저히 우수한 성능을 실증·시뮬레이션을 통해 입증한 점, (3) Δ 파라미터를 통한 민감도 분석이 직관적이며 실무에 적용하기 쉬운 점이다. 다만, Δ값 선택이 주관적일 수 있다는 점과, 연속형 혼동변수에만 적용된 점은 향후 연구에서 범주형 변수와 복합 결측 메커니즘으로 확장할 필요가 있다.

자기마스킹 결측 혼동변수를 위한 층화 델타 보정 추정법

초록

상세 분석

댓글 및 학술 토론

의견 남기기