네팔 영유아 빈혈 예측을 위한 머신러닝·딥러닝 모델 비교
초록
본 연구는 2022년 네팔 인구·건강조사(NDHS) 데이터를 활용해 6‑59개월 영유아의 빈혈 여부를 이진 분류 문제로 정의하고, 48개 후보 변수 중 통계적·머신러닝 기반 4가지 변수선택 기법으로 13개의 핵심 변수를 선정하였다. 로지스틱 회귀가 재현율 0.701, F1‑스코어 0.649로 가장 높은 성능을 보였으며, 딥러닝 모델인 DNN은 정확도 0.709, SVM은 AUC 0.736으로 각각 최고를 기록했다. 주요 위험 요인으로는 아동 연령, 최근 발열, 가구 규모, 모성 빈혈, 구충제 복용 여부가 확인되었다.
상세 분석
이 논문은 네팔의 최신 인구·건강조사(NDHS 2022) 미시 데이터를 기반으로 영유아 빈혈을 예측하는 모델을 구축하고, 전통적인 머신러닝 알고리즘과 최신 딥러닝 구조를 체계적으로 비교한다. 데이터 전처리 단계에서 결측치가 많은 6개 변수를 제외하고, 나머지 48개 변수를 범주형으로 변환한 뒤 1,855명의 관측치를 확보하였다. 클래스 불균형(빈혈 38.5% 대비 비빈혈 61.5%)을 해결하기 위해 학습 데이터에 SMOTE를 적용했으며, 80:20 비율의 층화 샘플링을 통해 훈련·테스트를 분리하였다.
변수선택은 χ² 검정, 상호정보(Mutual Information), 점-바이시리얼 상관분석, 그리고 랜덤 포레스트 기반 Boruta 알고리즘 네 가지 방법을 동시에 적용하였다. 네 방법 모두에서 일관되게 선택된 다섯 변수는 ‘아동 연령’, ‘최근 2주 내 발열 여부’, ‘가구 규모’, ‘모성 빈혈 여부’, ‘구충제 복용 여부’였으며, 이는 기존 역학 연구와도 높은 일치성을 보인다. 추가로 ‘월경 중단(amenorrhea)’, ‘특정 민족(ethnicity)’, ‘주(province)’ 변수도 다수 방법에서 선정돼 지역·문화적 요인이 빈혈 위험에 영향을 미칠 가능성을 시사한다.
모델링 단계에서는 로지스틱 회귀(LR), K‑최근접 이웃(KNN), 결정트리(DT), 랜덤 포레스트(RF), XGBoost, 서포트 벡터 머신(SVM), 나이브 베이즈(NB), 선형 판별 분석(LDA) 등 8개의 전통 머신러닝 모델과 다층 퍼셉트론 기반 DNN, TabNet 두 가지 딥러닝 모델을 비교하였다. 하이퍼파라미터 탐색은 그리드 서치를 사용했으며, 성능 평가는 정확도, 정밀도, 재현율, F1‑스코어, AUC, 평균 정밀도, Cohen’s Kappa 등 다중 지표를 활용하였다.
결과적으로 재현율과 F1‑스코어 측면에서 가장 우수한 모델은 로지스틱 회귀였으며, 이는 변수 해석 가능성과 모델 단순성이 실제 보건 현장에서 적용하기에 유리함을 의미한다. 반면 DNN은 전체 정확도에서 최고를 기록했지만, 재현율이 다소 낮아 실제 빈혈 아동을 놓칠 위험이 있다. SVM은 AUC가 0.736으로 가장 높은 판별력을 보였으며, 이는 비선형 경계가 존재할 경우 커널 트릭이 효과적임을 보여준다. TabNet은 딥러닝 기반이면서도 특징 선택 마스크를 제공해 해석성을 어느 정도 유지했지만, 전체적인 성능은 전통 모델에 비해 크게 앞서지 못했다.
모델 비교에서 드러난 핵심 인사이트는 다음과 같다. 첫째, 변수 선택 과정에서 다중 방법 합의를 통해 도출된 핵심 변수들은 임상·공중보건 차원에서 이미 알려진 위험 요인과 일치한다는 점이다. 둘째, 복잡한 딥러닝 모델이 반드시 성능 우위를 보장하지 않으며, 데이터 규모가 제한적인 상황에서는 과적합 위험이 커질 수 있다. 셋째, 재현율을 최우선으로 고려할 경우 상대적으로 단순한 로지스틱 회귀가 실용적이며, 정책 입안자는 이를 활용해 고위험군을 선별하고 예방적 개입을 설계할 수 있다. 마지막으로, SMOTE와 같은 오버샘플링 기법을 파이프라인에 통합함으로써 클래스 불균형 문제를 효과적으로 완화했으며, 이는 향후 유사한 보건 데이터 분석에 적용 가능한 좋은 사례가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기