패널 데이터에 적용한 출생 사망 과정 모델링 및 결핵균 DNA 지문 분석

초록

연속시간 선형 출생‑사망‑이주(BDI) 과정을 패널 데이터에 맞추어 추정하는 새로운 EM 알고리즘을 제안한다. 공동생성함수를 이용해 E‑단계를 1차원 적분으로 축소하고, 피셔 정보도 동일한 방식으로 계산한다. 구현은 오픈소스 R 패키지로 제공되며, Mycobacterium tuberculosis의 IS6110 복제수 변화를 분석해 주요 계통 간 출생·사망 비율 차이를 최초로 밝혀냈다.

상세 요약

본 논문은 임상·역학 연구에서 흔히 마주치는 ‘패널 데이터’—즉, 환자를 추적하면서 불규칙한 시간 간격으로 수집된 관측값—에 선형 출생‑사망‑이주(BDI) 과정을 적용하는 방법론적 난제를 해결한다. 전통적인 최대우도 추정은 관측 시점 사이의 미관측 구간을 적분해야 하는데, 이는 파라미터가 다수일 경우 수치적 불안정성과 계산량 폭증을 초래한다. 저자들은 이러한 문제를 EM 알고리즘으로 구조화한다. E‑단계에서는 현재 파라미터 하에서 숨겨진 완전 데이터(즉, 각 구간 내의 출생·사망·이주 사건 수와 상태 변화를)의 기대값을 계산해야 하는데, 이를 위해 BDI 과정의 ‘공동생성함수’를 폐쇄형으로 유도한다. 이 생성함수는 출생·사망·이주 횟수와 최종 상태를 동시에 포괄하는 다변량 생성함수이며, 복소평면에서 적절히 경로를 잡아 라플라스 변환을 수행하면 기대값이 단일 실변수 적분식으로 변환된다. 따라서 E‑단계는 복잡한 다중 적분이 아니라 1차원 수치 적분 하나로 대체된다. M‑단계에서는 기대값을 이용해 파라미터(공변량에 대한 회귀계수 포함)를 명시적으로 업데이트한다. 이 과정은 선형 구조 덕분에 닫힌 형태 해를 갖거나, 간단한 뉴턴‑라프슨 반복으로 수렴한다. 또한 피셔 정보 행렬 역시 동일한 생성함수를 활용해 1차원 적분으로 계산할 수 있어, 추정치의 표준오차와 신뢰구간을 효율적으로 제공한다. 구현 측면에서는 R 패키지 ‘bdipanel’이 공개되어, 사용자는 데이터 프레임 형태로 환자 ID, 관측 시점, 복제수 등을 입력하면 자동으로 모델 적합, 파라미터 추정, 모델 선택(AIC/BIC) 및 진단 플롯을 얻을 수 있다. 실제 데이터 적용에서는 결핵균(M. tuberculosis)의 IS6110 복제수 변화를 3개 주요 계통(L1, L2, L4)에서 비교하였다. 결과는 L2 계통이 다른 계통에 비해 출생률이 현저히 높고, 사망률은 낮아 복제수가 빠르게 증가한다는 점을 보여준다. 이러한 차이는 기존에 IS6110을 전염병 클러스터링에 사용할 때 가정했던 동일한 변이율 가정에 위배되며, 역학적 추적 정확도에 영향을 미칠 수 있다. 전반적으로 본 연구는 복잡한 패널 데이터에 대한 BDI 모델링을 실용적이고 이론적으로 견고하게 만든 점에서 통계학, 역학, 미생물학 분야에 큰 기여를 한다.

초록

상세 요약

📜 논문 원문 (영문)