코로나19 전백신 시대 이탈리아 두 물결의 사망 패턴 비교: 함수형 데이터 분석
초록
본 연구는 107개 이탈리아 지방자치단체의 사망률 곡선을 함수형 데이터 분석(FDA)으로 정량화하고, 첫 번째와 두 번째 코로나19 파동(백신 도입 이전)의 규모·시기·변동성을 비교한다. 이동성, 제한 시점, 인구 고령화·보건·교육·산업·대기오염 등 6가지 사회·환경 변수와의 회귀분석을 통해 이동성이 사망률에 긍정적 영향을 미치며, 제한 조치가 조기에 시행될수록 사망률 상승을 억제한다는 결과를 도출한다.
상세 분석
이 논문은 함수형 데이터 분석(FDA)이라는 통계적 프레임워크를 활용해 코로나19 사망률의 시계열 곡선을 연속적인 함수로 변환하고, 이를 기반으로 두 파동 간 차이를 정량적으로 평가한다. 먼저, ISTAT가 제공한 2015‑2019년 평균 사망률을 기준으로 일일 차별 사망률(differential mortality)을 계산하고, 150일 구간(첫 파동: 2/25‑7/23/2020, 두 번째 파동: 10/1‑2/27/2021) 동안 각 지방자치단체별로 cubic B‑spline(주당 하나의 knot, 총 21개)으로 스무딩한다. GCV를 이용해 최적의 매끄러움 파라미터를 선택하고, 각 곡선의 피크를 기준으로 landmark registration을 수행해 시간축을 정렬함으로써 “peak‑aligned” 형태의 함수 데이터를 얻었다.
곡선 정렬 후, 평균 곡선과 변동성을 비교하면 첫 번째 파동은 피크가 급격히 상승하고 짧은 기간에 집중되는 ‘exponential’ 형태가 두드러졌다. 반면 두 번째 파동은 피크가 더 늦게 나타나고, 지역별 시차가 커서 비동기적 확산 양상을 보였다. 특히, 첫 파동에서 가장 큰 사망률을 기록한 베르가모와 같은 지방은 두 번째 파동에서는 상대적으로 낮은 사망률을 보였으며, 이는 초기 제한 준수, 위험군 감소, 혹은 부분적인 집단 면역 효과 등을 시사한다.
다변량 분석에서는 6개의 스칼라 공변량(고령 인구 비율, 가정의사당 인구, 병원당 평균 병상, 교실당 평균 학생, 기업당 평균 직원, PM10 농도)을 사용해 함수형 선형 회귀(FLR)를 수행했다. 결과는 이동성(구글 Mobility 데이터의 “Grocery & Pharmacy”와 “Workplace” 카테고리)과 사망률 사이에 강한 양의 상관관계가 있음을 보여준다. 이동성 곡선 자체도 파동마다 변동성이 크게 달라 첫 파동에서는 전반적으로 높은 이동성 감소가 관측됐으며, 두 번째 파동에서는 지역별 차이가 확대되었다.
제한 조치의 시점을 정량화하기 위해 각 지방의 ‘제한 전 누적 사망률(Area Under Curve up to restriction date)’ 변수를 도입했으며, 이 변수가 이후 사망률을 예측하는 데 가장 강력한 설명변수임을 확인했다. 이는 제한이 늦게 시행될수록 사망률이 급격히 상승한다는 정책적 함의를 제공한다.
데이터 품질 평가에서도 저자들은 DPC(이탈리아 민간보호청)에서 제공하는 공식 사망·확진 데이터가 지방별로 심각하게 누락·불일치함을 지적한다. 특히 확진 사례는 지역·지방 수준에서 집계가 일관되지 않아 분석에 활용할 수 없었으며, 사망 데이터 역시 첫 파동에서 공식 기록이 실제 차별 사망률보다 현저히 낮았다. 이러한 한계에도 불구하고, 차별 사망률을 이용한 FDA 접근법은 데이터 결함을 보완하면서도 지역별 전염 양상을 시각화하고, 정책 변수와의 연관성을 정량화하는 데 유용함을 입증한다.
전반적으로 이 연구는 함수형 데이터 분석을 통해 전염병 시계열 데이터를 ‘곡선’ 단위로 다루는 새로운 방법론을 제시하고, 이동성·제한 시점·사회·환경 요인이 사망률에 미치는 영향을 정밀하게 분리·정량화함으로써 향후 전염병 대응 정책 설계에 실증적 근거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기