숨은 마코프 모델로 보는 개인‑수준 전염병 전파 메커니즘
📝 Abstract
Individual-level epidemic models are increasingly being used to help understand the transmission dynamics of various infectious diseases. However, fitting such models to individual-level epidemic data is challenging, as we often only know when an individual’s disease status was detected (e.g., when they showed symptoms) and not when they were infected or removed. We propose an autoregressive coupled hidden Markov model to infer unknown infection and removal times, as well as other model parameters, from a single observed detection time for each detected individual. Unlike more traditional data augmentation methods used in epidemic modelling, we do not assume that this detection time corresponds to infection or removal or that infected individuals must at some point be detected. Bayesian coupled hidden Markov models have been used previously for individual-level epidemic data. However, these approaches assumed each individual was continuously tested and that the tests were independent. In practice, individuals are often only tested until their first positive test, and even if they are continuously tested, only the initial detection times may be reported. In addition, multiple tests on the same individual may not be independent. We accommodate these scenarios by assuming that the probability of detecting the disease can depend on past observations, which allows us to fit a much wider range of practical applications. We illustrate the flexibility of our approach by fitting two examples: an experiment on the spread of tomato spot wilt virus in pepper plants and an outbreak of norovirus among nurses in a hospital.
💡 Analysis
**
1. 연구 배경 및 문제 정의
- ILM의 필요성: 개인별 감수성·전염성 차이, 거리·접촉 구조 등을 반영해 전파 메커니즘을 정밀히 추정 가능.
- 데이터 한계: 대부분의 실증 연구는 단일 검출 시점(증상 발현·양성 판정)만 제공, 감염·제거 시점은 비관측. 기존 DA(Data Augmentation) 방법은 복잡한 reversible‑jump MCMC가 필요하거나, “모든 감염자는 반드시 검출된다”는 강한 가정을 둔다.
2. 제안 모델의 핵심 구성
| 구성 요소 | 기존 접근 vs. 본 논문 |
|---|---|
| 숨은 상태 (Sit) | SIR(또는 SINR) 마코프 체인, 다른 개인의 감염 상태에 의존 (결합) |
| 관측 모델 (yit) | 독립 Bernoulli, 연속 검사 가정 |
| 베이지안 추정 | DA + reversible‑jump MCMC |
| 모델 선택 | 별도 비교 실험 필요 |
3. 방법론적 강점
- 관측 가정의 현실성: “첫 양성 결과 후 검사를 중단한다”는 실제 임상·실험 상황을 정확히 반영.
- 검사 독립성 완화: 과거 검출 여부가 현재 검출 확률에 영향을 주는 Markovian 관측 구조를 도입해, 연속 검사에서도 독립 가정을 필요 없게 함.
- 계산 효율성: iFFBS 알고리즘은 각 개인의 숨은 상태 시퀀스를 조건부 완전분포에서 직접 샘플링하므로, 복잡한 RJ‑MCMC 단계가 사라짐.
- 모델 통합 프레임워크: 기존 DA 기반 모델(감염 시점 알려짐, 제거 시점 알려짐 등)을 동일한 HMM 구조 안에 삽입 가능 → WAIC로 손쉽게 비교·선택.
4. 실증 적용 및 결과 해석
TSWV 실험 (고추 식물)
- 증상 발현까지 평균 2–4주 지연 → 감염 시점이 크게 앞선다.
- 제안 모델은 감염 시점 분포와 전파 파라미터(거리 의존성, 개체별 감수성)를 정확히 복원, 기존 DA 모델은 감염 시점 추정에 큰 편향을 보임.
노로바이러스 병원 발발
- 간호사 간 접촉 네트워크와 근무 일정이 전파에 중요한 역할을 함.
- AR‑CHMM은 시간‑가변 전이 확률을 통해 교대 근무에 따른 전파 위험 변화를 포착, WAIC 기준에서 기존 SINR 모델보다 우수.
5. 한계 및 향후 연구 방향
| 한계 | 제안된 보완책 |
|---|---|
| 검출 민감도(θ) 고정: 실제 검사는 시간·개체에 따라 민감도가 변할 수 있음. | θ를 시간·공변량 의존 함수로 확장하거나, 베타-분포 사전으로 추정 가능. |
| 단일 검출 시점 가정: 일부 데이터는 다중 검출(연속 양성) 정보를 제공한다. | 다중 검출을 허용하는 다중 관측 HMM(예: 다중 Bernoulli 시퀀스)으로 일반화. |
| 네트워크 구조 단순화: 전이 확률에 사용된 감염자 수만 고려, 실제 접촉 강도·위치 정보는 미반영. | 동적 접촉 네트워크(예: 시간‑가중 그래프)와 결합하여 전이 행렬을 보다 정교하게 설계. |
| 모델 검증: 시뮬레이션 기반 검증은 충분하지만, 외부 검증(예: 실제 감염 시점이 알려진 실험) 부족. | 감염 시점이 라벨링된 동물 실험 혹은 인공 데이터를 활용한 교차 검증 수행. |
6. 종합 평가
본 논문은 **“단일 검출 시점만으로도 전파 메커니즘을 추정할 수 있다”**는 중요한 통계적·역학적 통찰을 제공한다. 자동회귀 결합 HMM이라는 새로운 모델 프레임워크는 기존 DA 방법의 복잡성을 크게 낮추면서도, 실제 검진·보고 절차를 더 현실적으로 반영한다. 특히 iFFBS 기반 샘플링은 대규모 인구(수천 명)에도 적용 가능하도록 계산 효율성을 확보한다.
다만, 검출 민감도와 네트워크 구조에 대한 보다 세밀한 모델링이 추가된다면, 다양한 전염병(예: COVID‑19, 인플루엔자) 및 복잡한 사회적 접촉 패턴을 다루는 데 더욱 강력한 도구가 될 것이다.
**
📄 Content
감염 시점·제거 시점·검출 시점에 대한 설명
감염 시점은 실제로 감염이 일어난 시점을, 제거 시점은 감염자가 회복하거나 격리·사망 등으로 전염 가능 상태에서 벗어난 시점을 의미한다. 검출 시점은 감염자가 증상을 보이거나 검사에 의해 질병이 확인된 시점을 말한다. 실제 역학 데이터에서는 감염·제거 시점을 직접 관찰하기 어려워 검출 시점만이 관측된다. 이러한 상황에서 베이지안 결합 은닉 마코프 모델(Bayesian coupled hidden Markov models, CHMM)이 개별 수준 전염병 데이터를 분석하는 데 활용되어 왔다. 그러나 기존 접근법은 각 개인이 연속적으로 검사를 받으며 검사 결과가 서로 독립이라고 가정했다. 실제 연구에서는 다음과 같은 제약이 존재한다.
- 단일 검출 시점 – 대부분의 경우 개인은 첫 번째 양성 결과가 나오면 검사가 중단되며, 혹은 연속 검사를 하더라도 최초 검출 시점만이 보고된다.
- 검사 결과의 종속성 – 동일 개인에 대한 연속 검사는 서로 독립적이지 않을 수 있다(예: 이전 검사 결과가 다음 검사 시행 여부에 영향을 미침).
본 논문에서는 이러한 현실적인 상황을 반영하기 위해, 과거 관측에 따라 검출 확률이 변할 수 있다는 가정을 추가한다. 이를 통해 “첫 검출 시점에 검사를 중단한다”는 규칙을 자연스럽게 모델에 포함시킬 수 있다. 결과적으로 제안된 은닉 마코프 모델은 다음과 같은 특징을 가진다.
- 각 검출된 개인에 대해 단일 검출 시점(예: 증상 발현 시점)만을 필요로 한다.
- 검출 시점이 감염·제거 시점과 일치한다는 가정을 두지 않는다.
- 감염자는 언제든지 검출되지 않을 수 있으며, 이는 무증상·경증 감염이나 연구 종료 시점에 아직 증상이 나타나지 않은 경우를 포괄한다.
또한 기존의 데이터 증강(data augmentation, DA) 방법을 역전파 없이 동일 프레임워크에 통합한다. 예를 들어, 감염 시점이 알려진 경우(Bu et al., 2022) 혹은 제거 시점이 알려진 경우(O’Neill & Roberts, 1999)와 같은 모델을 그대로 적용할 수 있다. 이렇게 하면 복잡한 가역점프 마코프 체인 몬테카를로(MCMC) 절차 없이도 베이지안 추정을 수행할 수 있다. 모델 간 비교는 광범위 적용 정보 기준(WAIC) 을 이용해 손쉽게 수행할 수 있어, 관측 모델 선택에 대한 데이터 기반 의사결정을 가능하게 한다.
1. 서론
역학 연구자는 전염병 전파 메커니즘을 개별 수준에서 이해하고자 한다. 예를 들어, 연령에 따른 감수성 차이(Cohen et al., 1997; Davies et al., 2020) 혹은 감염자가 실제로 전파할 수 있는 거리(Hu et al., 2021; Lichtemberg et al., 2022) 등을 조사한다. 개별‑수준 전염 모델(Individual‑level models, ILMs)은 이러한 질문에 답하기 위한 강력한 도구다(Deardon et al., 2010; Vynnycky & White, 2010). ILM은 개별을 감수성(susceptible), 감염(infectious), 제거(removed) 등 여러 전염 상태로 구분하고, 이들 상태 간 전이를 연속 시간(Almutiry et al., 2021) 혹은 이산 시간(Warriyar et al., 2020)으로 모델링한다. 여기서는 이산 시간 모델에 초점을 맞춘다.
이산 시간 모델에서 각 시점 (t)의 감염 확률은 (i) 현재 감염자 수, (ii) 감염자와 감수성자 사이 거리, (iii) 개인별 고유 감수성·전염성(공변량에 따라 변할 수 있음) 등에 의존한다(Keeling et al., 2001; Mahsin et al., 2022). 따라서 복잡한 혼합 패턴을 포괄적으로 기술할 수 있다.
하지만 실제 개별‑수준 전염 데이터는 감염·제거 시점을 알 수 없고, 오직 검출 시점(예: 증상 발현)만 관측된다(Touloupou et al., 2020). 예를 들어, 토마토 반점 시들음 바이러스(TSVW) 실험에서는 각 식물에 대해 증상이 처음 나타난 시점만 기록되었다. 증상이 2~4주 후에 나타나므로 실제 감염 시점은 검출 시점보다 앞에 존재한다. 또한 일부 감염 식물은 증상이 미미하거나 관찰되지 않아 검출되지 않을 수도 있다. 따라서 감염·제거 시점은 전혀 알려지지 않으며, 감염된 개체 수조차도 불확실하다.
이러한 불확실성을 다루는 가장 일반적인 방법은 베이지안 프레임워크 내에서 감염·제거 시점을 미지 파라미터로 취급하는 데이터 증강(DA) 기법이다(O’Neill, 2002; O’Neill & Kypraios, 2019). 전통적인 DA는 (i) 감염 시점은 미지, 제거 시점은 알려짐(O’Neill & Roberts, 1999) 혹은 (ii) 그 반대를 가정한다(Bu et al., 2022). 그러나 실제 상황에서는 두 시점 모두 관측되지 않을 때가 많다(Neal & Roberts, 2004). 이때는 SINR 모델(susceptible‑infectious‑notified‑removed)을 사용해 관측된 검출 시점으로부터 감염·제거 시점을 추정한다(Jewell et al., 2009; Almutiry et al., 2021). SINR 모델은 모든 감염자가 먼저 ‘통보(notified)’ 상태를 거쳐야만 제거될 수 있다고 가정한다. 하지만 실제로는 무증상 감염자나 경미한 증상으로 검출되지 않은 감염자가 존재할 수 있다(Mullis et al., 2009). 기존 DA 방법은 이러한 미검출 감염을 무시하거나 복잡한 가역점프 MCMC 절차를 필요로 한다.
이에 반해 Touloupou et al. (2020) 은 결합 은닉 마코프 모델(Coupled Hidden Markov Model, CHMM) 을 도입해 감염·제거 시점이 미지인 이산 시간 ILM을 다루었다. 이 접근법은 (1) 검출 시점이 감염·제거 시점과 일치한다는 가정을 하지 않으며, (2) 감염자가 제거되기 전에 반드시 검출될 필요가 없고, (3) 개별 전염 상태를 iFFBS(individual Forward Filtering Backward Sampling) 알고리즘을 통해 직접 샘플링함으로써 가역점프 MCMC가 필요 없다는 장점을 가진다.
하지만 Touloupou et al. 은 (i) 모든 개인이 연속적으로 검사를 받으며, (ii) 검사 결과가 독립이라고 가정했다. 실제 역학 연구에서는 (i) 첫 번째 양성 결과가 나오면 검사가 중단되는 경우가 일반적이며, (ii) 동일 개인에 대한 연속 검사는 독립적이지 않을 수 있다.
2. 제안 모델
2.1 관측 모델
우리는 과거 관측에 따라 검출 확률이 변하는 관측 모델을 도입한다. 개인 (i)가 시점 (t)에 질병을 검출했는지를 나타내는 이진 변수 (y_{it})를 다음과 같이 정의한다.
[ y_{it}\mid S_{it},;y_{i0},\dots ,y_{i(t-1)} \sim \begin{cases} \text{Bernoulli}(\theta), & \text{if } S_{it}=2 \text{ (감염) & } \prod_{s=0}^{t-1} \mathbf{1}{y_{is}=0}=1,\[4pt] 0, & \text{otherwise}, \end{cases} \tag{1} ]
여기서 (\theta>0)는 검사의 민감도(sensitivity)를 의미한다. 식 (1)에서 (\mathbf{1}{y_{i0},\dots ,y_{i(t-1)}=0})는 “이전까지 한 번도 검출되지 않았다”는 조건을 나타내는 지시함수이다. 즉, 개인이 첫 번째 양성 결과가 나올 때까지 검사가 진행되고, 그 이후에는 검사가 중단되므로 검출 확률은 0이 된다.
이 모델은 두 가지 실제 상황을 모두 포괄한다.
- 첫 검출 시점까지만 검사 – TSWV 실험처럼 증상이 처음 나타날 때까지만 관찰한다.
- 연속 검사 후 최초 검출 시점만 보고 – 대부분의 전염병 조사에서 증상 발현 시점만 기록한다.
두 경우 모두 관측자는 “첫 검출 이전에만 검사가 시행된다”는 전제 하에 (1)과 동일한 확률 구조를 갖는다.
또한 검사가 시간에 따라 독립적일 필요는 없다. 예를 들어, 감염자의 검사 결과가 1차 마코프 체인으로 전이한다면
[
P(y_{it}=1\mid y_{i(t-1)}=0)=\theta,\qquad
P(y_{it}=1\mid y_{i(t-1)}=1)=\theta_{1}>\theta,
]
와 같이 정의할 수 있다. 하지만 개인은 첫 양성 결과가 나올 때까지 검사가 중단되므로, 실제 관측되는 (y_{it})는 언제나 0이며 (1)은 그대로 성립한다.
2.2 은닉 상태 전이 모델
각 개인 (i)의 전염 상태 (S_{it}\in{1,2,3}) (1: 감수성, 2: 감염, 3: 제거)는 비동질(시간에 따라 변하는) 3‑상태 마코프 체인으로 모델링한다. 전이 확률은 다른 개인들의 현재 상태에 의존하도록 결합된다. 구체적으로, 시점 (t-1)에 개인 (i)가 감수성(1)이라면, 감염될 확률 (p_{12,it})는
[ p_{12,it}=1-\exp!\Bigl{-\alpha-\sum_{j\in\mathcal N_E(i)}\beta_{j\to i,t}\Bigr}, \tag{3} ]
여기서
- (\alpha)는 배경 감염 위험(외부 감염원 또는 환경)이며,
- (\beta_{j\to i,t})는 j → i 전염 효과이며,
- (\mathcal N_E(i))는 개인 (i)가 직접 접촉할 가능성이 있는 이웃 집합이다.
식 (3)은 고전적인 Reed‑Frost 이산 시간 SIR 모델을 일반화
이 글은 AI가 자동 번역 및 요약한 내용입니다.