불완전 데이터에서의 형식·비형식 모델 선택
초록
본 논문은 관측되지 않은 결측값을 포함한 데이터에서 모델을 선택하고 평가하는 두 가지 핵심 문제를 조명한다. 첫째, 많은 모델이 전체(완전) 데이터를 전제로 정의되므로 관측된 부분과 직접 비교하기 어렵다. 둘째, 불완전하고 불균형한 데이터에 적용될 때 모델의 가정 민감도가 급격히 증가한다. 이를 설명하기 위해 연속형과 범주형 사례를 제시하고, 모델 평가를 (i) 관측 데이터 적합도와 (ii) 검증 불가능한 가정에 대한 민감도 두 단계로 나눌 것을 제안한다.
상세 분석
논문은 불완전 데이터 상황에서 모델 선택이 직면하는 두 가지 근본적인 난관을 체계적으로 분석한다. 첫 번째 난관은 “완전 데이터 모델”이라는 개념 자체가 결함을 드러낸다. 전통적인 통계·기계학습 모델은 전체 모집단의 분포나 구조를 가정하고, 그 가정 하에 파라미터를 추정한다. 그러나 실제 연구에서는 결측 메커니즘(MCAR, MAR, MNAR) 때문에 관측된 표본이 전체를 대표하지 못한다. 따라서 모델이 기술하는 전체 데이터와 관측된 부분 사이에 불일치가 발생하고, 직접적인 적합도 검정이 불가능해진다. 이 문제를 해결하기 위해 저자는 관측 데이터에 대한 “조건부” 모델링—즉, 관측된 변수들을 조건으로 미관측 변수의 분포를 명시하는 접근법을 강조한다.
두 번째 난관은 모델의 가정 민감도가 불완전 데이터에서 급격히 확대된다는 점이다. 완전 데이터에서는 로버스트한 추정량이나 대수적 특성이 보장되지만, 결측이 존재하면 이러한 특성이 사라지고 추정값이 가정에 과도하게 의존한다. 특히 불균형한 카테고리형 데이터에서는 소수 클래스의 결측이 전체 모델의 편향을 크게 만들고, 연속형 데이터에서는 결측 패턴이 변수 간 상관구조를 왜곡한다. 논문은 이러한 현상을 두 개의 실증 예시—연속형 변수에 대한 정규 혼합 모델과 범주형 변수에 대한 로짓 회귀 모델—를 통해 구체적으로 보여준다. 각각의 예시에서 동일한 관측 데이터에 대해 서로 다른 결측 메커니즘을 가정하면 추정된 파라미터와 예측 성능이 크게 달라짐을 확인한다.
이러한 문제를 정량적으로 평가하기 위해 저자는 모델 평가를 두 단계로 구분한다. 첫 단계는 “관측 데이터 적합도”로, 로그우도, AIC, BIC 등 기존 정보 기준을 관측된 부분에만 적용한다. 두 번째 단계는 “가정 민감도 분석”으로, 다중 가정 시나리오(예: MCAR vs. MAR vs. MNAR)를 설정하고, 각 시나리오 하에서 파라미터 추정치와 예측 결과의 변동성을 비교한다. 민감도 분석을 위해 베이지안 모델 평균(BMA)이나 민감도 그래프(sensitivity curves)를 활용할 수 있다.
결론적으로, 논문은 모델 선택이 단순히 관측 데이터에 대한 적합도만을 기준으로 할 수 없으며, 결측 메커니즘에 대한 가정이 얼마나 현실적인지, 그리고 그 가정이 결과에 미치는 영향을 반드시 검증해야 한다고 주장한다. 이는 특히 정책 결정이나 의료 진단처럼 결측이 필연적인 분야에서 모델의 신뢰성을 확보하는 데 필수적인 절차이다.
댓글 및 학술 토론
Loading comments...
의견 남기기