구글 트렌드 검색어로 사망률 예측: 위너 캐스케이드 모델 적용

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 2013‑2018년 미국의 주간 구글 트렌드 데이터를 활용해 19개의 질병·사망 원인 검색어가 “die”와 “death”라는 사망 관련 용어를 예측할 수 있는지를 위너 캐스케이드 모델로 검증한다. 전체 19개 변수, 연간 주기성이 높은 상위 10개 변수, 가중치가 큰 상위 10개 변수 세 가지 선택법을 비교했으며, “die”는 전체 변수와 가중치 상위 10개에서 각각 ρ≈0.49, 0.48의 유의한 상관을 보였고, “death”는 가중치 상위 10개에서만 ρ≈0.31의 개선된 성능을 나타냈다.

상세 분석

이 논문은 빅데이터 기반 공중보건 감시의 한 축으로 구글 트렌드(Google Trends)를 활용한 사망률 예측 가능성을 탐색한다. 데이터는 2013년 12월부터 2018년 12월까지 미국 전역을 대상으로 주간 단위로 수집했으며, 19개의 질병·사망 원인 검색어(예: “Cancer”, “Heart Disease”, “Diabetes” 등)와 두 개의 종속 변수(“die”, “death”)를 설정하였다. 시간‑주파수 분석에는 Morlet 웨이브릿 변환을 적용해 0.5–4 cycles/year(2년~3개월) 범위의 스펙트럼 파워를 추정, 이를 통해 각 검색어의 주기성을 정량화하였다.

예측 모델은 3차 다항식 형태의 위너 캐스케이드(Wiener Cascade) 모델을 사용한다. 먼저 다중 입력‑단일 출력 선형 필터를 52주(1년) 지연을 포함해 리지 회귀(λ 정규화)로 학습하고, 그 출력에 정적 비선형성을 적용해 최종 예측값을 도출한다. 모델 성능 평가는 5‑fold 교차검증을 통해 스피어만 상관계수(ρ)와 평균제곱오차(MSE)를 계산하였다.

세 가지 변수 선택 전략을 비교했을 때, 전체 19개 변수를 사용한 경우 “die”에 대한 ρ=0.49(p<0.001), MSE=23.24로 가장 높은 예측 정확도를 보였으며, “death”은 ρ=0.25(p<0.001), MSE=52.61로 상대적으로 낮았다. 연간 주기성이 강한 상위 10개 변수를 사용하면 “die”는 ρ=0.44(p<0.001)로 약간 감소했지만 여전히 유의했으며, “death”은 ρ=0.07(p=0.32)으로 의미 없는 결과를 냈다. 반면 가중치가 큰 상위 10개 변수를 선택하면 “die”는 ρ=0.48(p<0.001), MSE=25.50으로 전체 변수와 거의 동등한 성능을 유지했고, “death”은 ρ=0.31(p<0.001), MSE=47.93으로 전체 변수 대비 개선된 결과를 보였다.

이 결과는 두 가지 중요한 시사점을 제공한다. 첫째, “die”와 같은 일반적인 사망 관련 용어는 연간 주기성을 가진 질병 검색어(특히 암, 당뇨, 심혈관 질환)의 변동에 민감하게 반응한다는 점이다. 둘째, “death”는 단순 주기성보다 각 변수의 모델 내 가중치(예측 기여도)가 더 결정적인 역할을 한다는 점이다. 따라서 사망률 감시 시스템을 설계할 때는 목적 변수에 따라 주기성 기반 피처와 가중치 기반 피처를 적절히 조합해야 한다.

한계점으로는 (1) 미국 전체를 하나의 집합으로 분석해 지역별 차이를 반영하지 못했으며, (2) 검색어와 실제 사망 통계 간의 직접적인 인과관계를 검증하지 않아 외생 변수(예: 미디어 보도, 정책 변화)의 영향을 배제하기 어렵다. 또한 위너 캐스케이드 모델은 비선형성을 정적 비선형 함수에 한정하므로 복잡한 시계열 상호작용을 충분히 포착하지 못할 가능성이 있다. 향후 연구에서는 지역별 세분화, 다변량 시계열 모델(LSTM 등) 도입, 그리고 실제 사망 데이터와의 정량적 매핑을 통해 모델의 외적 타당성을 강화할 필요가 있다.

구글 트렌드 검색어로 사망률 예측: 위너 캐스케이드 모델 적용

초록

상세 분석

댓글 및 학술 토론

의견 남기기