결측치 보정이 해석가능 머신러닝에 미치는 불확실성

결측치 보정이 해석가능 머신러닝에 미치는 불확실성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 결측치 보정이 해석가능 머신러닝(Interpretable Machine Learning, IML) 방법의 불확실성에 미치는 영향을 체계적으로 평가한다. 단일(imputation)과 다중(imputation) 보정 방법을 비교하여, 단일 보정이 분산을 과소평가하고 신뢰구간(CI) 커버리지를 낮추는 반면, 다중 보정이 명목 수준(95%)에 가까운 커버리지를 제공함을 실증한다. 실험은 퍼뮤테이션 변수 중요도(PFI), 부분 의존도(PD) 플롯, Shapley 값(SHAP) 등 대표적인 IML 기법을 대상으로 다양한 결측 패턴(MCAR, MAR, MNAR)과 결측 비율을 적용해 수행하였다.

상세 분석

이 연구는 결측 데이터가 존재할 때 IML 결과의 불확실성을 정량화하려는 최초 시도 중 하나이다. 먼저 Rubin이 정의한 MCAR, MAR, MNAR 세 가지 결측 메커니즘을 시뮬레이션에 적용하고, 결측 비율을 10 %, 20 %, 40 %로 변동시켰다. 보정 방법으로는 평균 대체, MissForest(단일), 그리고 MICE‑PMM·MICE‑RF(다중) 세 가지를 사용하였다. 각 보정된 데이터셋에 대해 부트스트랩과 서브샘플링을 각각 20번 수행해 학습 데이터를 재생성하고, XGBoost와 선형 회귀(lm)를 학습시켰다. 이후 전역 IML 기법인 퍼뮤테이션 변수 중요도(PFI), 부분 의존도(PD) 플롯, 전역 SHAP(평균 절대 Shapley 값)를 적용해 설명값을 추정하였다.

핵심 이론적 기여는 Molnar et al.이 제시한 “learner‑Ψ” 개념을 확장해, 모델 학습 불확실성뿐 아니라 보정 불확실성(imputation uncertainty)까지 포함한 분산 추정식을 제시한 것이다. 구체적으로, k개의 모델 재학습을 통해 얻은 설명값 평균 bΨ와 그 분산을 식 (3)으로 계산하고, 필요 시 Nadeau‑Bengio 보정(c = n_test/n_train)을 적용해 편향을 보정한다. 이후 t‑분포를 이용해 95 % 신뢰구간을 구축하고, 1000번 반복 실험을 통해 실제 커버리지 비율을 평가하였다.

실험 결과는 다음과 같다. (1) 단일 보정(특히 평균 대체)은 대부분의 경우 분산을 크게 낮추어 CI가 실제 값을 포함하지 못하는 경우가 빈번했다. MissForest도 비슷한 경향을 보였지만, PD에서는 다소 개선된 커버리지를 보였다. (2) 다중 보정(MICE‑PMM, MICE‑RF)은 특히 선형 DGP에서 명목 0.95에 근접한 커버리지를 유지했으며, 결측 비율이 증가해도 안정적인 성능을 나타냈다. 다만, 비선형 DGP에서는 SHAP와 PFI에서 약간의 커버리지만 감소했지만, 전체적으로는 완전 데이터와 유사한 수준을 유지했다. (3) CI 폭은 일반적으로 결측 비율이 커질수록 넓어졌으며, 다중 보정이 가장 넓은 CI를 제공했지만 이는 정확한 분산 추정에 따른 결과였다. MissForest와 평균 대체는 경우에 따라 CI 폭이 작아 과신 위험을 내포한다. (4) 부트스트랩과 서브샘플링 모두 비슷한 경향을 보였으며, 보정 없이 단순 분산 추정하면 커버리지가 현저히 낮아진다.

이러한 결과는 IML 결과를 해석할 때 보정 불확실성을 무시하면 과도한 확신을 갖게 될 위험이 있음을 경고한다. 특히 의료·재무 등 고위험 분야에서 모델 설명을 정책·임상 결정에 활용할 경우, 다중 보정과 적절한 분산 보정(c = n_test/n_train)을 적용해 신뢰구간을 제시하는 것이 필수적이다. 또한, 연구자는 코드와 시뮬레이션 파이프라인을 GitHub에 공개해 재현성을 확보하였다. 향후 연구에서는 비선형·고차원 DGP, 다른 IML 기법(예: LIME, ICE) 및 실제 결측 데이터셋에 대한 적용을 확대할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기