결측치 보간에 랜덤 포레스트가 주는 영향 평가
초록
본 연구는 2001년 산전 클리닉에서 수집된 HIV 혈청역학 데이터에 대해 다섯 가지 결측치 보간 방법(랜덤 포레스트, 자동연관 신경망·유전 알고리즘, 자동연관 신경‑퍼지, 두 가지 랜덤 포레스트‑신경망 하이브리드)을 적용하고, 각 방법의 정확도와 연산 시간을 비교한다. 결과는 랜덤 포레스트가 다른 방법에 비해 평균 32% 정도 높은 정확도와 현저히 짧은 실행 시간을 보였으며, 보간된 데이터가 통계 분석, HIV 상태 분류, 로지스틱 회귀 기반 확률 예측에 미치는 영향은 크게 없음을 확인하였다.
상세 분석
본 논문은 결측치 보간 기법의 성능을 정량적으로 평가하기 위해, 2001년 남아프리카공화국의 산전 클리닉에서 수집된 HIV 혈청역학 데이터셋을 활용하였다. 데이터는 연령, 교육 수준, 결혼 연령, 임신 횟수 등 12개의 변수와 HIV 양성 여부라는 목표 변수를 포함하고 있었으며, 일부 변수에 인위적으로 결측치를 삽입해 보간 실험을 설계하였다. 보간 방법으로는 (1) 랜덤 포레스트(RF), (2) 자동연관 신경망(AANN)과 유전 알고리즘(GA)의 결합, (3) 자동연관 신경‑퍼지(AANF) 모델, (4) RF‑AANN 하이브리드, (5) RF‑AANF 하이브리드 총 다섯 가지를 적용하였다.
정확도 평가는 보간 후 원본값과의 평균 절대 오차(MAE)와 평균 제곱 오차(MSE)로 수행했으며, 연산 시간은 동일한 하드웨어 환경에서 CPU 사용량을 기준으로 측정하였다. 결과는 RF가 다른 네트워크 기반 방법에 비해 MAE와 MSE에서 평균 32% 정도 개선된 점을 보여준다. 특히 연령, 교육 수준 등 연속형 변수에서 RF는 높은 비선형 관계를 효과적으로 포착하면서도 과적합 위험이 낮았다. 반면, AANN·GA와 AANF는 학습 단계에서 파라미터 최적화에 많은 시간이 소요되었으며, 하이브리드 모델은 RF의 장점을 일부 유지했지만 신경망 부분이 병목이 되어 전체 실행 시간이 크게 늘어났다.
보간된 데이터를 활용한 후속 분석에서는 세 가지 접근법을 적용하였다. 첫째, 결측치가 보간된 후와 보간 전 데이터를 각각 t‑검정 및 카이제곱 검정을 통해 변수 간 차이를 비교했으며, p‑값 차이가 미미함을 확인했다. 둘째, 보간된 데이터와 원본 데이터를 사용해 로지스틱 회귀와 서포트 벡터 머신(SVM)으로 HIV 양성 여부를 분류했을 때, 정확도와 AUC가 0.01 이하로 차이 나는 등 모델 성능에 큰 영향을 주지 않았다. 셋째, 로지스틱 회귀를 통해 두 개의 보간된 변수(예: 교육 수준, 임신 횟수)를 독립 변수로 사용했을 때, HIV 감염 확률과의 선형 상관계수가 0.96에 달해 보간 데이터가 확률 예측에 거의 동일한 정보를 제공함을 입증했다.
이러한 결과는 결측치 보간이 데이터 분석 파이프라인에 미치는 잠재적 위험을 최소화할 수 있음을 시사한다. 특히 대규모 역학 조사에서 결측치가 불가피한 경우, RF 기반 보간이 높은 정확도와 빠른 처리 속도로 실용적인 선택이 될 수 있다. 다만, 하이브리드 모델이 신경망 구성 요소의 학습 효율성에 의해 제한을 받는 점은 향후 경량화된 신경망 구조나 전이 학습 기법을 도입해 개선 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기