그래프 기반 결측 데이터 식별과 가중치 추정
초록
본 논문은 결측 데이터의 완전 분포를 그래픽 모델 하에서 식별하기 위한 트리 기반 알고리즘을 제안하고, 이를 토대로 선택 편향을 제어하는 역확률 가중치 추정법을 개발한다. 식별 트리는 결측 지표에 대한 개입 순서를 명시적으로 추적해 식별 가능 여부를 진단하고, 식별 가능한 경우에는 구체적인 확률 점수와 함수형을 제공한다. 제안 방법은 시뮬레이션과 실제 설문 데이터에 적용돼 기존 EM·다중대체법 대비 우수한 성능을 보이며, R 패키지 flexMissing 으로 구현된다.
상세 분석
이 연구는 결측 메커니즘을 조건부 DAG(Directed Acyclic Graph)로 제한하고, 목표 분포 p(X) 는 전혀 제한하지 않는 ‘완전 자유’ 설정을 채택한다. 핵심 아이디어는 결측 지표 Rₖ 를 ‘개입 변수(do‑연산)’로 취급해, Rₖ=1 으로 고정하는 일련의 개입이 선택 편향(selection bias)을 어떻게 생성·전파하는지를 정량화하는 것이다. 저자는 먼저 각 Rₖ 에 대해 Sₓₖ (결측 부모에 의해 발생하는 반사적 선택 집합)와 Sᵣₖ (목표 분포 복구에 필요한 평가 집합)를 정의하고, 이를 합친 Sₖ 를 전체 선택 집합으로 만든다. 특히 Rₖ 의 부모에 포함된 다른 Rⱼ 가 Rₖ 의 후손이면(문제 집합 Rₚₖ) 전통적인 연관성(associational) 무관성은 깨지지만, 인과적 무관성(causal irrelevance) 즉 πₖ (Propensity score)가 다른 Rⱼ 에 대한 개입에 불변임을 이용해 do(Rⱼ=1) 개입을 삽입함으로써 후손 관계를 차단한다.
트리 기반 식별 알고리즘은 이러한 개입 순서를 탐색한다. 루트는 전체 관측 데이터 (p(X*,R)) 이며, 각 노드는 현재까지 수행된 개입 집합 R* 을 나타낸다. 노드 확장은 ‘가능한 개입’을 선택해 do(Rⱼ=1) 을 적용하고, 새 노드에서 πₖ 를 조건부 확률 형태로 재표현한다. 확장 과정에서 선택 편향이 발생하면 해당 경로는 차단되고, 편향 없이 πₖ 를 얻을 수 있는 경로가 존재하면 식별이 성공한다. 알고리즘은 단순히 식별 가능 여부를 반환하는 것이 아니라, πₖ 를 어떤 Sᵣₖ 조건 하에 평가해야 하는지, 그리고 필요한 개입 집합이 무엇인지를 명시한다.
식별이 확보되면, 저자는 역확률 가중치(IPW) 추정량을 재귀적으로 구성한다. 기본 아이디어는 p(X)=p(X,R=1)/π(R=1|X) 식에서 π 를 식별 트리에서 얻은 πₖ 들의 곱으로 대체하고, 각 πₖ 에 대해 관측된 완전 사례에 가중치를 부여한다. 재귀적 구조는 πₖ 가 또 다른 πⱼ 에 의존하는 경우에도 순차적으로 추정하도록 설계돼, 전체 가중치가 선택 편향을 보정한다는 이론적 보장을 제공한다. 대수적 안정성(πₖ>σ>0) 가정 하에 점근적 정규성, 일관성, 효율성을 증명하고, 추정식은 일반적인 M‑estimation 프레임워크에 쉽게 삽입될 수 있다.
실험에서는 다양한 MNAR 시나리오(자기 마스킹, 블록‑조건부 MAR, 이산 선택 모델 등)를 시뮬레이션하고, 제안 방법을 EM, 다중대체법, 기존 인과식별 기반 방법과 비교한다. 결과는 특히 Rₖ 간 복잡한 종속 구조가 존재할 때 식별 트리가 제공하는 개입 전략이 편향을 크게 감소시키고, 평균 제곱 오차를 현저히 낮추는 것을 보여준다. 실제 설문 데이터(소득·교육 변수의 비응답)에서도 flexMissing 패키지를 이용해 πₖ 를 추정하고, 가중치를 적용한 평균 추정이 비응답 편향을 효과적으로 보정한다는 점을 확인한다.
이 논문의 주요 공헌은 (1) 결측 DAG에서 선택 편향을 명시적으로 추적·제어하는 트리 기반 식별 알고리즘, (2) 식별 결과를 그대로 활용한 재귀적 IPW 추정법, (3) 이론적 대수적 성질과 실증적 검증을 모두 제공한 점이다. 또한, 식별이 불가능한 경우에도 부분적인 πₖ 집합을 활용해 특정 함수형(예: 평균, 회귀계수)만을 식별·추정할 수 있는 방법을 제시함으로, 실제 데이터 분석에서 실용적인 가이드라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기