극단값 상황에서 다중대체법 성능 비교
초록
본 연구는 R의 MICE 패키지를 활용해 결측이 발생한 변수 x₂에 대해 극단값(±3 표준편차) 유무를 조절한 시뮬레이션을 수행하고, 선형 회귀, 베이지안 회귀, 예측 평균 매칭, 랜덤 포레스트, CART 등 여러 다중대체(MI) 방법을 비교한다. 결과는 평균제곱오차(CV‑MSE) 기준으로 선형 회귀 기반 대체가 가장 우수했으며, 스파스(Elastic‑Net) 모델은 전반적으로 효율성이 낮았다. 표본 크기, 결측 비율, 극단값 비중, 그리고 하위 분석 모델 종류가 성능에 중요한 영향을 미치는 것으로 나타났다.
상세 분석
이 논문은 결측 데이터 처리에서 가장 널리 쓰이는 다중대체(Multiple Imputation, MI) 방법들의 견고성을 극단값 존재 여부에 따라 체계적으로 평가한다. 데이터 생성 단계에서는 평균 1, β₁ = 0.5, β₂ = 1.5인 선형 모델을 기반으로 y, x₁, x₂ 세 변수를 정규분포에서 추출하고, x₁과 x₂ 사이의 상관계수 ρ를 조절한다. 결측은 MCAR 가정 하에 x₂에만 무작위로 삽입하며, 결측 비율은 10 %~30 % 범위에서 변형한다. 극단값은 전체 표본의 3σ 위·아래에 해당하는 값으로 대체하는 ‘three‑sigma’ 방식으로, 비율(P_ext) 역시 5 %~20 %로 설정한다.
모델링 측면에서 깨끗한 데이터는 OLS 회귀를, 극단값이 포함된 데이터는 Elastic‑Net(α = 0.5)으로 안정성을 확보한다. 동일한 K‑fold 교차검증 폴드를 모든 MI 복제와 임퓨테이션에 재사용함으로써 변동성을 최소화하고, Rubin’s rules를 통해 추정량과 표준오차를 결합한다.
임퓨테이션 방법은 크게 두 부류로 나뉜다. 첫 번째는 전통적인 파라메트릭 접근법으로, 선형 회귀(LM), 베이지안 선형 회귀(Bayes‑LM), 그리고 예측 평균 매칭(PMM)이 포함된다. 두 번째는 비파라메트릭·머신러닝 기반으로, 랜덤 포레스트(Random Forest), CART, 그리고 최근 각광받는 딥러닝 기반 대체법을 포함한다(논문 본문에 구체적 구현은 명시되지 않았으나 일반적인 MICE 옵션을 가정). 각 방법은 M = 5~10개의 완전 데이터 세트를 생성하고, 이후 동일한 분석 모델에 적용해 예측 성능을 평가한다.
주요 평가지표는 교차검증 평균제곱오차(CV‑MSE)이며, 추가적으로 β₀, β₁, β₂ 추정치의 편향, RMSE, 95 % 신뢰구간 커버리지를 Rubin’s 규칙에 따라 계산한다. 결과는 다음과 같다. (1) 선형 회귀 기반 임퓨테이션이 전체 시나리오에서 가장 낮은 CV‑MSE를 기록했으며, 특히 표본 크기가 작고 결측 비율이 높을 때 그 우위가 두드러졌다. (2) 베이지안 회귀는 파라메트릭 특성 덕분에 예측 분포의 폭을 좁히는 경향이 있었지만, 극단값이 많을 경우 오히려 과소평가가 발생했다. (3) PMM은 분포 형태를 보존하는 장점이 있었지만, 고차원(ρ가 큰 경우)에서는 근접 이웃 탐색 비용이 증가하면서 MSE가 상승했다. (4) 랜덤 포레스트와 CART 같은 비파라메트릭 방법은 극단값에 대한 내성이 어느 정도 있었으나, 변수 간 선형 관계가 강하게 유지되는 상황에서는 과적합 위험이 커져 CV‑MSE가 상승했다. (5) Elastic‑Net 기반 스파스 모델은 변수 선택 효과가 있어 일부 시나리오에서 변동성을 낮췄지만, 전반적으로는 파라메트릭 방법보다 효율성이 떨어졌다.
표본 크기와 결측 비율이 성능에 미치는 영향도 상세히 분석했다. 표본이 500 ~ 1000명 수준으로 증가하면 모든 방법의 변동성이 감소하지만, 극단값 비중이 15 % 이상일 때는 파라메트릭 방법이 여전히 우세했다. 또한, 결측이 30 %에 달하면 비파라메트릭 방법의 불안정성이 두드러져, 파라메트릭 회귀 기반 대체가 가장 안전한 선택임을 확인했다.
마지막으로, 저자들은 실무 적용 시 다음과 같은 권고안을 제시한다. (i) 데이터에 극단값이 존재하는지 사전 탐색하고, 필요 시 Winsorizing이나 로버스트 스케일링을 적용한다. (ii) 결측 메커니즘이 MCAR/MAR인지 확인하고, MAR 가정이 성립한다면 파라메트릭 회귀 기반 MI를 우선 고려한다. (iii) 표본이 충분히 크고 변수 간 비선형 관계가 강할 경우, 비파라메트릭 방법을 보조적으로 검토한다. (iv) 최종 분석 모델과 일관된 예측 변수 행렬(predictor matrix)을 사용해 ‘congeniality’를 확보한다. 이러한 절차는 추정 편향을 최소화하고, 신뢰구간의 정확성을 보장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기