머신러닝 불확실성이 반사된 반사실 설명의 견고성 탐구
초록
본 논문은 알레아토릭(데이터 잡음)과 에피스테믹(데이터·모델 부족) 두 종류의 불확실성이 탭형 데이터에 적용된 머신러닝 모델의 반사실(counterfactual) 설명에 미치는 영향을 실험적으로 조사한다. 다양한 모델(DNN, 랜덤포레스트, 로지스틱 회귀)과 세 가지 대표적인 반사실 생성 알고리즘(DiCE, NICE, RL‑기반) 조합을 100,000개 이상의 사례에 대해 평가한 결과, 모델 정확도가 1~2 % 감소해도 생성된 반사실의 ℓ₁ 거리와 형태가 크게 변동한다는 사실을 발견했다. 즉, 높은 예측 정확도가 반드시 견고한 반사실을 보장하지 않으며, 불확실성을 고려한 설명 기법이 필요함을 강조한다.
상세 분석
이 연구는 먼저 머신러닝 불확실성을 알레아토릭(입력에 가해지는 가우시안 노이즈)과 에피스테믹(학습 데이터 양·다양성 감소)으로 구분하고, 각각을 제어된 실험 환경에서 독립적으로 조작하였다. 합성 데이터와 실제 금융·사회과학 탭형 데이터(신용점수, 의료 기록 등)를 사용해 총 6개의 데이터셋을 구축했으며, 각 데이터셋에 대해 3가지 분류 모델을 학습시켰다. 모델의 불확실성 수준을 변화시킨 뒤, 동일한 원본 인스턴스에 대해 DiCE, NICE, 그리고 강화학습 기반 Samoilescu‑et al. (2021) 방법을 적용해 반사실을 100 k 회 생성하였다.
핵심 지표는 (1) 평균 ℓ₁ 거리 변화, (2) 개별 인스턴스별 거리 표준편차, (3) “진짜 부정”(true negative)과 “거짓 부정”(false negative) 사이의 거리 차이였다. 실험 결과, 알레아토릭 노이즈가 5 % 수준으로 증가했을 때 모델 정확도가 평균 1.8 % 감소했음에도 불구하고, ℓ₁ 거리 평균은 12 % 이상, 개별 변동성은 30 % 이상 급증했다. 에피스테믹 불확실성(학습 샘플 30 % 감소)에서도 비슷한 패턴이 나타났으며, 특히 복합형 모델(예: XGBoost)보다 단순 선형 모델이 불확실성에 더 민감하게 반응했다.
알고리즘 별 차이도 뚜렷했다. DiCE는 최적화 기반이라 초기 모델이 불안정하면 수렴 실패가 빈번했으며, 결과적으로 생성된 반사실이 원본과 크게 달랐다. NICE는 인접 데이터 포인트를 활용하는 방식이라 데이터 밀도가 낮은 영역에서 불확실성이 커질수록 설명이 비현실적인 카테고리 전이를 일으켰다. 반면 강화학습 기반 방법은 정책 학습 단계에서 불확실성을 일부 내재화했지만, 학습 데이터가 충분히 풍부하지 않으면 정책 자체가 과적합돼 동일한 문제를 보였다.
또한, 논문은 “근접성만을 기준으로 한 반사실”이 실제 의사결정에 적합하지 않을 수 있음을 강조한다. 예를 들어, 신용 대출에서 연령을 5 년 낮추는 반사실은 ℓ₁ 거리상으로는 최소이지만, 실제로는 비현실적인 조치가 된다. 따라서 반사실 생성 시 ‘실현 가능성(plausibility)’과 ‘다양성(diversity)’ 같은 부가적인 제약을 함께 고려해야 한다는 점을 실험적으로 뒷받침한다.
마지막으로, 저자들은 베이지안 신경망을 이용해 전체 사후분포를 최적화에 활용하는 방안을 제안했으며, 이는 모델 불확실성을 직접 반사실 생성에 반영함으로써 견고성을 향상시킬 가능성을 시사한다. 그러나 현재 구현은 아직 초기 단계이며, 실제 산업 현장에 적용하기 위해서는 계산 비용 및 스케일링 문제를 해결해야 한다.
요약하면, 모델 정확도와 불확실성 사이의 비선형 관계가 반사실 설명의 안정성에 큰 영향을 미치며, 기존의 ‘정확도 우선’ 모델 선택 기준만으로는 충분하지 않다. 불확실성을 정량화하고 이를 반사실 생성 과정에 통합하는 새로운 프레임워크가 필요하다는 것이 본 연구의 핵심 통찰이다.
댓글 및 학술 토론
Loading comments...
의견 남기기