계절적 ARIMA 기반 인간 광역동물전염병 발생 예측 모델
초록
본 연구는 미국 CDC가 제공한 14년간 월별 인간 결핵 발생 데이터를 활용해 SARIMA 모델을 구축하고, 최적 모델인 SARIMA(9,0,14)(12,1,24)12를 도출하였다. Theil’s U 값 0.062는 높은 예측 정확도를 의미한다. 모델 진단 결과 정상성, 잔차 독립성 및 등분산성이 만족되어 실제 정책·보건 현장에 활용 가능한 예측 도구로서의 가능성을 제시한다.
상세 분석
이 논문은 인간에게 전파되는 동물원인(zoonosis) 질병 중 하나인 결핵을 사례로 삼아 시계열 예측 기법인 SARIMA(Seasonal Autoregressive Integrated Moving Average)를 적용하였다. 데이터는 2000년부터 2013년까지 14년간의 월별 결핵 발생 건수를 CDC 보고서에서 추출했으며, 총 168개의 관측값을 포함한다. 먼저 시계열의 계절성을 확인하기 위해 ACF와 PACF 그래프를 분석했으며, 월별 주기가 뚜렷하게 나타나는 것을 확인하였다. 차분(d) 과 계절 차분(D)을 적용해 정상성을 확보한 뒤, 다양한 (p,d,q)(P,D,Q)s 조합을 시험하였다. 모델 선택 기준은 AIC, BIC, 그리고 잔차의 백색잡음 여부였으며, 최종적으로 SARIMA(9,0,14)(12,1,24)12가 가장 낮은 AIC와 BIC 값을 기록하였다.
모델 진단 단계에서는 Ljung‑Box 검정으로 잔차의 자기상관을 검증했으며, p‑값이 0.05보다 크게 나타나 잔차가 백색잡음임을 확인했다. 또한, 정규성 검정을 위해 Q‑Q 플롯과 Shapiro‑Wilk 검정을 수행했으며, 잔차가 정규분포를 따름을 확인하였다. 이러한 진단 결과는 모델이 과적합 없이 데이터의 구조를 적절히 포착했음을 의미한다.
예측 정확도 평가는 Theil’s U 지표를 사용했으며, 0.062라는 값은 무작위 예측에 비해 94% 이상 향상된 성능을 나타낸다. 이는 특히 공중보건 정책 수립 시 향후 발생량을 사전에 파악함으로써 자원 배분 및 예방 조치를 최적화하는 데 큰 도움이 될 수 있다.
한계점으로는 결핵 데이터가 특정 국가(미국)와 특정 질병에 국한되어 있어 다른 지역·질병에 대한 일반화가 어려울 수 있다는 점이다. 또한, 외생 변수(예: 기후, 인구 이동, 백신 접종률)를 모델에 포함하지 않아 예측 정확도가 향상될 여지가 있다. 향후 연구에서는 다변량 SARIMAX 모델이나 머신러닝 기반 시계열 모델과의 비교를 통해 예측 성능을 더욱 고도화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기