결측 데이터에서 공동분포 복구 가능성을 판단하는 일반화 알고리즘

본 논문은 결측 데이터가 존재하는 상황에서, 특히 데이터가 ‘무작위가 아닌 결측(MNAR)’ 형태일 때, 관심 있는 확률 질의, 특히 전체 변수들의 공동분포 P(V)를 관측된 데이터만으로 복구할 수 있는지를 판단하는 일반적인 알고리즘을 제시한다. 먼저 저자는 기존 연구에서 사용된 m‑graph 개념을 재정의한다. m‑graph는 관측 변수 V, 잠재 변수 L, 그리고 결측 지시 변수 R을 포함하는 유향 비순환 그래프(DAG)이며, R 변수는 각 V_i가 결측인지 여부를 나타낸다. 중요한 제약으로 R 변수는 V 변수들의 부모가 될 수 없으며, 이는 데이터 생성 과정이 결측 메커니즘에 독립적임을 의미한다. 이러한 구조 하에서 전체 확률분포는 P(V,L,R)=P(V,L)·P(R|V,L) 형태로 분해된다. 다음으로 논문은 ‘복구 가능성(recoverability)’이라는 개념을 정의한다. 주어진 m‑graph와 관측된 ‘manifest distribution’(모든 가능한 결측 패턴에 대한 관측 확률 집합)으로부터 특정 질의 q가 두 개의 서로 다른 모델 P₁, P₂에 대해 동일한 값을 갖는다면 q는 복구 가능하다고 한다. 특히, MAR 상황에서는 R이 V_m에 조건부 독립이므로 공동분포가 언제나 복구 가능함을 확인한다. 그러나 MNAR 상황에서는 그래프 구조에 따라 복구 가능성이 달라진다. 기존 연구는 순차적 인수분해(admissible sequence)나 충분조건을 제시했지만, 잠재 변수가 포함된 경우에는 적용이 어려웠다. 이를 해결하기 위해 저자는 c‑component 라는 개념을 도입한다. c‑component는 잠재 변수에 의해 연결된 관측 변수들의 집합이며, 각 c‑component에 대응하는 c‑factor Q

결측 데이터에서 공동분포 복구 가능성을 판단하는 일반화 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기