구글 검색 데이터와 사망률의 연관성 연구
초록
본 논문은 구글 트렌드에서 추출한 검색어 빈도와 미국 질병통제예방센터(CDC) 사망률 통계 간의 상관관계를 탐색한다. 부정적 의미를 가진 검색어가 증가할 때 사망률이 상승하고, 긍정적 의미의 검색어가 증가할 때 사망률이 감소한다는 가설을 검증하기 위해 시계열 회귀와 교차상관 분석을 적용하였다. 결과는 일부 검색어에서 통계적으로 유의한 연관성을 보였으나, 인과관계 입증에는 한계가 있음을 지적한다.
상세 분석
본 연구는 구글 트렌드(Google Trends)에서 제공하는 월별 검색량 지표와 미국 CDC가 발표한 연령·성별·인종별 사망률 데이터를 2004년부터 2018년까지 15년 기간 동안 매칭시켜 시계열 데이터셋을 구축하였다. 검색어 선정은 감성 사전(긍정·부정 어휘 리스트)을 기반으로 200여 개를 추출했으며, 각 검색어의 감성 점수를 평균화해 ‘긍정군’과 ‘부정군’으로 구분하였다. 데이터 전처리 단계에서는 계절성(Seasonality)과 장기 추세(Trend)를 차분(differencing)하여 정상성을 확보하고, ARIMA 모델을 적용해 잔차를 검증하였다. 이후 교차상관 함수(CCF)를 이용해 검색어와 사망률 사이의 시차(lag) 효과를 탐색했으며, 유의한 시차가 발견된 경우 다중 회귀분석(Multiple Linear Regression)으로 조정 변수(예: 실업률, 의료 접근성, 기후 요인)를 포함시켜 모델을 보정하였다. 통계적 유의성은 5% 수준에서 검증했으며, 부정군 검색어 중 ‘우울증’, ‘자살’, ‘불안’ 등은 사망률과 13개월 시차에서 양의 상관관계를 보였다(p<0.01). 반면 긍정군 검색어인 ‘행복’, ‘운동’, ‘여행’ 등은 사망률과 음의 상관관계를 나타냈지만, 일부는 p값이 0.050.1 사이로 경계값에 머물렀다. 한계점으로는 검색어가 실제 행동을 반영한다는 가정의 불확실성, 인구통계학적 차이(연령·소득·교육 수준)와 검색 행동 간의 복합적 상호작용, 그리고 데이터의 집계 단위(주·주) 차이로 인한 시간적 정밀도 저하가 있다. 또한, 상관관계가 인과관계를 의미하지 않으며, 외부 충격(예: 전염병, 자연재해)과 같은 잠재적 교란 변수를 완전히 통제하지 못했다는 점을 강조한다. 향후 연구에서는 개인 수준의 검색 로그와 의료 기록을 연계한 미시적 분석, 머신러닝 기반 비선형 모델링, 그리고 다국가 비교 연구를 통해 일반화 가능성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기