가중치 컨포멀 예측으로 결측 데이터의 마스크 조건 커버리지 달성
초록
본 논문은 결측값이 존재하는 데이터에 대해 기존 스플릿 컨포멀 예측이 보장하는 한계점을 극복하고, 마스크‑조건부 유효성(MCV)을 만족하도록 설계된 두 가지 가중치 보정 알고리즘을 제안한다. 사전 다중 임퓨테이션 후 마스크에 맞춰 보정함으로써 마진 커버리지와 MCV를 동시에 보장하면서도 예측 구간 폭을 크게 줄인다.
상세 분석
이 연구는 결측 메커니즘이 MCAR, MAR, MNAR 등 어떠한 형태이든 적용 가능한 프레임워크를 제시한다는 점에서 이론적·실용적 의의가 크다. 기존의 CP‑MDA‑Exact와 CP‑MDA‑Nested은 마스크 조건에 따라 캘리브레이션 데이터를 선택하거나 테스트 포인트의 마스크를 인위적으로 확대하는 방식으로 MCV를 달성했지만, 데이터 양이 부족하거나 마스크가 복잡해질 경우 과도한 보수성(넓은 예측 구간)이나 샘플 부족 문제를 야기한다. 논문은 이러한 한계를 ‘pre‑impute‑mask‑then‑correct’ 라는 3단계 절차로 해결한다. 첫 단계에서는 다중 임퓨테이션(예: MICE, 베이지안 리지 회귀)을 이용해 캘리브레이션 셋을 완전한 형태로 복원한다. 여기서 중요한 점은 임퓨테이션이 Y까지 활용할 수 있다는 점으로, 관측된 레이블 정보를 반영해 보다 정확한 조건부 분포를 추정한다는 것이다. 두 번째 단계에서는 테스트 포인트와 동일한 마스크 Mₙ₊₁ 를 캘리브레이션 데이터에 적용해 ‘mask‑conditional’ 데이터를 만든다. 이때 원본 데이터와 임퓨테이션된 데이터 사이에 존재하는 분포 이동을 무시하면 MCV가 깨지게 되므로, 세 번째 단계에서 가중치를 부여해 보정한다.
가중치 보정은 두 가지 방식으로 구현된다. 첫 번째는 ‘mask‑conditional weighted CP’ 로, 테스트와 캘리브레이션 데이터의 밀도비(importance weight)를 마스크별로 추정해 스코어의 경험분포를 재가중한다. 이는 Tibshirani et al. (2019)의 가중치 CP를 결측 상황에 맞게 확장한 것으로, MAR·MNAR 상황에서도 이론적 보장을 제공한다. 두 번째는 ‘Acceptance Rejection‑Corrected (ARC) CP’ 로, 임퓨테이션된 캘리브레이션 샘플을 마스크‑조건부 확률에 따라 수용·거부하는 메커니즘이다. ARC는 가중치 추정이 불안정할 때 보수적인 대안을 제공한다.
이론적으로는 두 알고리즘 모두 마진 커버리지와 MCV를 ‘근사적으로’ 만족함을 정리(정리 3.2 등)하고, 불완전한 밀도비 추정이 미치는 영향을 총변동거리(TV)와 KL 발산 형태의 오차 항으로 명시한다. 실험에서는 합성 데이터와 UCI·MIMIC‑IV 등 실제 데이터셋을 사용해 기존 CP‑MDA 방법 대비 평균 구간 폭을 20~35% 정도 감소시키면서도 1‑α 수준의 커버리지를 유지함을 보여준다. 특히, 마스크가 복잡하고 결측 비율이 40% 이상인 경우에도 ARC‑CP가 과도한 보수성을 피하면서 안정적인 MCV를 제공한다는 점이 주목할 만하다.
이 논문은 (1) 임퓨테이션 후 마스크 정렬을 통한 데이터 일관성 확보, (2) 가중치 기반 및 수용‑거부 기반 두 가지 보정 메커니즘 제시, (3) MAR·MNAR 등 일반적인 결측 메커니즘에서도 이론적 보장을 제공한다는 세 축으로 기존 연구의 한계를 크게 확장한다. 또한 구현이 비교적 간단하고 기존 파이프라인(단일 임퓨테이션 후 CP)과 호환되므로 실무 적용 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기