구조적 결측에 대한 거의 최적 베이지안 추론
초록
구조적 결측은 변수 간 인과·논리 제약으로 값이 정의되지 않으며, 마스크가 관측값·미관측값·다른 마스크에 의존한다. 저자는 두 단계 구조적 인과 모델(SCM)을 사전으로 삼아, 베이지안 사후 예측 분포(PPD)를 직접 학습하는 Prior‑Fitted Network(PFN)를 제안한다. 이를 통해 결측값 사후 분포와 라벨 예측을 분리하고, 불확실성을 완전히 전파하면서도 추론 비용을 최소화한다. 이 프레임워크는 43개 분류·15개 임퓨테이션 벤치마크에서 최첨단 성능을 달성하고, 유한 표본에 대한 근접 베이즈 최적성 이론을 제공한다.
상세 분석
본 논문은 구조적 결측(structural missingness)이라는 복합적인 결측 상황을 체계적으로 정의하고, 기존의 MCAR·MAR·MNAR 구분을 넘어 마스크 자체가 변수 간 인과·논리 관계에 의해 생성되는 경우를 다룬다. 저자는 이러한 상황을 두 단계 SCM(Second‑order Structural Causal Model)으로 모델링한다. 첫 번째 단계는 완전 데이터 X와 그 생성 메커니즘을 정의하고, 두 번째 단계에서는 마스크 M을 X→M(값의 유효성)와 M→M(결측 전파) 두 종류의 인과 관계를 포함하는 함수 f_M에 의해 생성한다. 이 과정에서 마스크는 관측값과 미관측값 사이의 의존성을 명시적으로 표현한다는 점이 핵심이다.
베이지안 관점에서 예측은 사후 예측 분포 p(y|X_c^M, D_c^M) = ∫ p(y|X_c^M, X_m, D_c^M, D_m) p(X_m, D_m|X_c^M, D_c^M) dX_m dD_m 로 정의된다. 여기서 첫 번째 항은 완전 데이터가 주어졌을 때의 표준 지도 학습 문제이며, 두 번째 항은 결측값에 대한 사후 분포(PD)이다. 기존 방법은 두 번째 항을 무시하거나 단일 임퓨테이션값으로 대체해 MNAR 편향과 플러그인 편향을 초래한다.
저자는 이 두 과정을 명확히 분리하고, PFN을 이용해 첫 번째 항을 직접 학습한다. PFN은 사전 생성된 수천·수만 개의 합성 데이터셋(두 단계 SCM으로부터 샘플링)으로부터 데이터셋‑투‑사후 예측 매핑을 학습한다. 학습 목표는 교차 엔트로피 손실을 최소화하는 것이며, 이는 기대 KL 최소화와 동등하다. 따라서 PFN은 사후 예측 분포를 거의 최적에 가깝게 근사한다.
또한 저자는 선택적으로 Flow Matching 기반의 별도 헤드를 도입해 결측값 사후 분포(p(X_m|X_c^M, D_c^M))를 추정한다. 이 사후 분포는 불확실성 분석이나 샘플링 기반 임퓨테이션에 활용될 수 있지만, 라벨 예측 자체는 PFN만으로 충분히 수행된다. 즉, 라벨 예측 단계에서는 Monte Carlo 샘플링이 필요 없으며, “플러그인‑프리” 방식으로 불확실성을 그대로 전달한다.
이론적으로는 유한 표본 상황에서의 과잉 위험(excess risk) 상한을 제시한다. 위험은 사후 근사 오차와 예측 모델 오차 두 부분으로 분해되며, 이는 기존 플러그인 방식보다 낮은 샘플 복잡도를 요구한다는 의미다. 실험에서는 43개의 분류 벤치마크와 15개의 임퓨테이션 벤치마크에서 기존 SOTA를 크게 앞섰으며, 특히 MNAR·구조적 결측이 강하게 나타나는 데이터셋에서 그 차이가 두드러졌다.
결론적으로, 논문은 (1) 구조적 결측을 포괄하는 사전 모델링, (2) 베이지안 사후 예측을 직접 학습하는 효율적 PFN, (3) 선택적 결측값 사후 분포 추정이라는 세 가지 핵심 기여를 통해, 결측 데이터 환경에서의 예측·임퓨테이션 문제를 통합적으로 해결한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기