결측치가 있는 데이터를 위한 해석 가능한 일반화 가법 모델
초록
본 논문은 결측값을 직접 다루는 희소한 일반화 가법 모델(M‑GAM)을 제안한다. 결측지표와 그 상호작용 항을 ℓ₀ 정규화로 제어함으로써, 다중 삽입이나 단순 인디케이터 사용보다 높은 정확도와 훨씬 적은 파라미터 수를 달성한다. 실험 결과는 MAR 상황과 실제 결측 데이터 모두에서 기존 방법을 능가함을 보여준다.
상세 분석
M‑GAM은 기존 GAM의 구조를 유지하면서 각 특성에 대해 두 종류의 불리언 변수를 도입한다. 첫 번째는 결측 여부를 나타내는 인디케이터이며, 두 번째는 다른 특성이 결측일 때 해당 특성의 형태 함수를 조정하는 ‘결측 조정 항’이다. 이러한 설계는 모델이 여전히 일변량 형태 함수들의 합으로 표현되도록 보장하면서, 결측 상황에서도 직관적인 해석을 가능하게 한다.
핵심 기술은 ℓ₀ 정규화를 이용한 희소성 촉진이다. 결측 인디케이터와 그와 다른 특성 간의 상호작용을 모두 포함하면 변수 수가 2ᵈ 혹은 d(d‑1)+2ᵈ 수준으로 급증할 위험이 있다. ℓ₀ 정규화는 실제로 사용되는 인디케이터와 상호작용을 최소화하여 과적합을 방지하고, 모델을 인간이 이해하기 쉬운 수준으로 압축한다.
이론적 기여로는 두 가지 명제와 정리가 제시된다. Proposition 3.1은 완벽한 삽입을 가정하더라도 결측 자체가 라벨에 정보를 제공할 경우, 결측 인디케이터를 활용한 모델이 삽입‑후‑예측 모델보다 높은 베이즈 최적 성능을 얻을 수 있음을 증명한다. Corollary 3.2는 완벽 삽입이 오히려 최적 위험을 달성하지 못하게 만들 수 있음을 보여, 예측 목적에서는 결측을 그대로 활용하는 것이 바람직함을 강조한다.
Theorem 3.4는 임의의 affine 삽입과 GAM 예측기를 사용한 삽입‑후‑예측 접근법에 대해, 동일한 기대 분류 점수를 복원할 수 있는 M‑GAM 구성을 존재함을 보인다. 이는 M‑GAM이 기존 삽입 기반 방법을 이론적으로 포괄한다는 의미이며, 실제 구현에서는 ℓ₀ 정규화와 효율적인 좌표 하강법을 통해 최적화한다.
실험에서는 MAR를 인위적으로 추가한 여러 공개 데이터셋과, 자연 결측이 존재하는 실제 데이터셋을 사용하였다. 결과는 M‑GAM이 다중 삽입(MICE) 기반 XGBoost와 비교해 동일하거나 더 높은 정확도를 유지하면서, 파라미터 수가 평균 70 % 이상 감소하고 학습 시간이 2배 이상 빨라짐을 보여준다. 특히 결측 인디케이터와 조정 항을 선택적으로 포함함으로써, 중요한 결측 패턴만을 모델에 반영하고 불필요한 복잡성은 억제한다.
전체적으로 M‑GAM은 결측 데이터를 해석 가능하게 다루는 새로운 패러다임을 제시한다. ℓ₀ 정규화에 기반한 희소성 확보, 일변량 형태 함수 유지, 그리고 결측‑특성 상호작용을 통한 유연한 표현력은 고위험 분야(법률, 의료 등)에서 요구되는 투명성과 성능을 동시에 만족시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기