결측 데이터 보정을 위한 공변량 이동 기반 가중치 반복 삽입
초록
본 논문은 결측 데이터 삽입을 위험 최소화 문제로 재구성하고, MAR(결측이 무작위) 메커니즘이 관측 데이터와 미관측 데이터 사이에 공변량 이동을 야기한다는 점을 밝힌다. 이를 교정하기 위해 중요도 가중치를 이론적으로 도출하고, 가중치와 삽입 모델을 동시에 학습하는 새로운 반복 삽입 알고리즘을 제안한다. 실험 결과, 기존 무가중치 방법에 비해 RMSE가 최대 7 % 감소하고 Wasserstein 거리도 최대 20 % 개선되는 것을 확인하였다.
상세 분석
이 논문은 결측 데이터 삽입을 전통적인 회귀‑예측 문제와 동일시하는 위험 최소화(framework) 관점에서 접근한다. 저자들은 먼저 전체 데이터 벡터 X와 관측 지시 변수 R의 결합 분포를 정의하고, MAR 가정 하에서 관측된 부분과 미관측된 부분이 동일한 조건부 분포 p(X_i | X_obs, R_{¬i})를 공유하지만, 주변 분포 p(X_obs, R_{¬i})가 다르다는 점을 강조한다. 이는 통계학에서 흔히 다루는 공변량 이동(covariate shift) 상황과 일치한다는 점에서, 관측 데이터만을 이용해 위험을 최소화하면 테스트(미관측) 분포에 대한 편향이 발생한다는 중요한 통찰을 제공한다.
편향을 정량화하기 위해 저자들은 중요도 가중치 w_i(x_obs, r_{¬i}) = p(x_obs, r_{¬i} | R_i = 0) / p(x_obs, r_{¬i} | R_i = 1) 를 도출한다. 이 가중치는 기존 공변량 이동 문헌에서 제시된 p_test(x)/p_train(x)와 동일한 형태이며, 관측 데이터에 가중치를 부여해 미관측 데이터의 분포를 모사한다. 가중치를 적용하면 좌변의 위험 J_i(g_i) 를 관측 데이터의 가중 평균 형태로 변환할 수 있어, 실제 데이터에서 편향 없이 최적의 삽입 함수를 학습할 수 있다.
알고리즘적 구현 측면에서, 저자들은 라운드‑로빈 방식의 반복 삽입(예: MICE, MissForest, HyperImpute) 구조를 그대로 유지하면서 각 변수별 가중치를 추정한다. 가중치 추정은 이진 분류기를 이용한 밀도 비율 추정(density‑ratio estimation) 방식으로 수행되며, η_i(·) 라는 조건부 확률 추정기를 학습해 w_i = (1 − η_i)/η_i 로 계산한다. 이후 각 변수 i에 대해 선택된 회귀/트리 모델 G_i 를 가중 MSE 손실 (8) 을 최소화하도록 학습하고, 미관측값을 업데이트한다. 이 과정을 모든 변수에 대해 순차적으로 수행하고, 전체 라운드를 여러 번 반복한다.
실험에서는 UCI 및 의료 데이터셋 등 다양한 베치마크에 대해 무가중치 버전과 비교했으며, RMSE와 Wasserstein 거리 두 지표 모두 유의미하게 개선됨을 보고한다. 특히, 결측 메커니즘이 X_1에 의존해 X_2가 결측되는 경우(공변량 이동이 뚜렷한 상황)에서 가중치 적용이 큰 효과를 보였다.
이 논문의 주요 기여는 (1) MAR 메커니즘 자체가 공변량 이동을 일으킨다는 이론적 증명, (2) 그에 대응하는 중요도 가중치의 명시적 도출, (3) 기존 라운드‑로빈 삽입 프레임워크에 가중치 추정·적용을 자연스럽게 통합한 알고리즘 제시, (4) 실험을 통한 실용성 검증이다. 한편, 가중치 추정에 사용되는 이진 분류기의 선택과 모델 복잡도에 따라 계산 비용이 증가할 수 있으며, 고차원·희소 데이터에서는 밀도 비율 추정의 안정성이 도전 과제로 남는다. 향후 연구에서는 가중치 추정의 효율적 정규화, 비선형·비정형 데이터에 대한 확장, 그리고 다중 결측 패턴을 동시에 다루는 공동 최적화 방법이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기