미국 지역별 Mpox 조기경보: 교차관할 라그를 활용한 Lasso VAR 모델
초록
본 연구는 미국 8개 고발생 지역의 주간 Mpox 사례를 대상으로, 교차관할 라그를 포함한 Lasso 정규화 벡터 자기회귀(VAR‑Lasso) 모델을 구축해 2주 앞 예측을 수행하였다. 양의 기울기가 큰 시기에 가중치를 부여한 RMSE, MAE, Bias 지표에서 VAR‑Lasso는 단변량 AR‑Lasso와 단순 이동평균 대비 각각 12 %·7 %·66 % 및 16 %·13 %·76 %의 개선을 보였다. 샌디에이고 카운티 사례에서는 일련의 장기(23‑24주) 라그가 일리노이 주와의 전파 경로를 포착했으며, 이는 독립적인 계통유전학 분석 결과와 일치한다.
상세 분석
본 논문은 Mpox와 같이 급증‑감소가 반복되는 전염병의 지역별 조기경보 필요성을 강조하고, 이를 해결하기 위한 통계 모델로 VAR‑Lasso를 제안한다. VAR은 다변량 시계열 간 상호작용을 포착할 수 있으나 차원 폭증 문제가 있다. 이를 Lasso 정규화와 결합해 불필요한 변수와 시차를 자동으로 0으로 축소함으로써 모델의 희소성을 확보하고 과적합을 방지한다. 학습은 2023년 전체 데이터를 사용하고, 2024년 42주에 걸쳐 2주 앞 예측을 롤링 방식으로 수행한다.
특히 논문은 “양의 기울기 가중 오류 지표”를 도입해, 사례 증가가 관측되는 시기에 예측 정확도를 더 중시한다. 이는 공중보건 실무에서 급증 시점에 빠른 대응이 필요함을 반영한다. 가중 RMSE, MAE, Bias는 각각 실제 주간 증가량에 비례해 가중치를 부여해 계산했으며, VAR‑Lasso는 AR‑Lasso와 Naïve 이동평균 대비 각각 12 %·7 %·66 %와 16 %·13 %·76 %의 상대적 개선을 보였다.
주요 결과는 교차관할 라그가 예측 성능에 크게 기여한다는 점이다. 샌디에이고 카운티(SDC) 사례에서 가장 큰 계수를 가진 변수는 일리노이 주의 23‑24주 전 라그였으며, 이는 일리노이에서 발생한 급증이 약 6개월 후 SDC에 영향을 미친다는 실질적 전파 경로를 시사한다. 이러한 통계적 발견은 독립적인 계통유전학 분석과 일치한다. 계통수 분석은 SDC 클러스터 B의 가장 최근 공통 조상이 2023년 9월이며, 일리노이 주에서 유입된 것으로 높은 사후 확률(p=0.72)을 보였다. 두 분석 결과가 22‑28주 시차를 공유함으로써, 모델이 실제 전파 메커니즘을 포착하고 있음을 입증한다.
한계점으로는 데이터가 CDC 보고에 의존해 보고 지연 및 누락 가능성이 존재하고, 8개 지역만을 대상으로 하여 일반화에 제약이 있다. 또한 Lasso의 정규화 파라미터 선택이 모델 성능에 민감하므로, 향후 베이지안 스파스 회귀 등 대안적 정규화 기법을 검증할 필요가 있다.
전반적으로 VAR‑Lasso는 다지역 전염병 데이터에서 장기 교차라그를 식별하고, 급증 시점에 대한 예측 정확도를 크게 향상시켜 공중보건 조기경보 체계에 실용적 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기