딥러닝 기반 설문 데이터로 아동 영양실조 예측 전통 모델 능가
초록
네팔 2019년 다중지표군집조사(MICS) 데이터를 활용해 16가지 머신러닝·딥러닝 모델을 비교한 결과, 주의 메커니즘을 갖는 TabNet이 F1‑점수 0.62와 재현율 0.68로 가장 우수했으며, 어머니 교육 수준, 가구 부유도, 아동 연령 등이 핵심 예측 변수로 확인되었다.
상세 분석
본 연구는 저자원이 제한된 국가에서 설문 기반 영양실조 스크리닝을 자동화하기 위해, 전통적인 통계·머신러닝 기법과 최신 딥러닝 구조를 동일한 데이터 파이프라인에 적용하였다. 데이터는 네팔 MICS 2019의 6 416명 영유아를 대상으로, 23개의 사회·경제·보건 변수를 사전 선정하고, 결측값을 ‘응답 안 함’으로 코딩하는 등 설문 특성을 반영한 전처리를 수행했다. 이후 Boruta와 다중 방법(상호정보, LASSO 등)으로 16개의 최종 피처를 추출했으며, 이는 기존 문헌과 일치하는 영양실조 위험 요인이다. 모델 평가는 정확도·ROC‑AUC 외에 클래스 불균형을 고려한 F1‑score, recall, balanced accuracy 등 10가지 지표를 사용했으며, 특히 재현율을 중시해 실제 현장에서 영양실조 아동을 놓치지 않는 것이 목표였다. 딥러닝군에서는 TabNet이 주의(attention) 기반 특성 선택과 순차적 의사결정 트리를 결합해, 비선형 관계와 변수 간 상호작용을 효과적으로 포착하였다. TabNet은 F1‑score 0.62, precision 0.63, recall 0.68, balanced accuracy 0.62를 기록했으며, 이는 동일 데이터에서 가장 성능이 높은 AdaBoost(0.61)와 SVM(0.61)보다 약간 앞선 수치이다. Gradient Boosting 계열(XGBoost, LightGBM 등)과 전통 모델(Random Forest, Logistic Regression 등)도 평균 0.55~0.58 수준을 보였지만, 과적합 위험과 해석 가능성에서 차이를 드러냈다. 변수 중요도 분석은 TabNet의 내부 attention 가중치와 전통적인 특성 중요도(랜덤 포레스트, L1‑LR) 를 종합해, 어머니 교육, 가구 부유도, 아동 연령이 최상위에 위치함을 확인했다. 지리적 요인(주, 도시·농촌), 예방접종 여부, 식사 빈도도 유의미한 보조 변수로 작용했다. 이러한 결과는 설문 데이터가 고차원·비선형 특성을 가질 때, 주의 메커니즘을 갖는 딥러닝 모델이 변수 선택과 예측 정확도에서 우위를 점한다는 점을 실증한다. 또한, 모델이 제공하는 변수 중요도는 정책 입안자가 위험군을 정의하고 표적 영양 개입을 설계하는 데 직접 활용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기