병원 체류 기간을 합성분포로 모델링

본 논문은 입원 환자의 체류 기간(LOS)을 환자 고유 회복 과정과 병원 운영(퇴원 지연) 과정을 각각 다른 확률분포로 가정하고, 두 분포의 합성(컨볼루션)으로 전체 LOS를 설명하는 새로운 통계모형을 제시한다. 모델 파라미터는 최대우도법과 EM 알고리즘으로 추정하며, 호주 빅토리아 주 병원 데이터에 적용해 기존 로그정규·와이블·감마 혼합모형과 동등하거나 우수한 적합성을 보인다.

저자: Adrien Ickowicz, Ross Sparks

병원 체류 기간을 합성분포로 모델링
본 논문은 병원 입원 환자의 체류 기간(Length of Stay, LOS)이 일반적인 통계분포(예: 로그정규, 와이블, 감마)로는 충분히 설명되지 않는 양의 왜도와 다중 피크, 이상치 등을 보이는 현실을 인식하고, 이를 해결하기 위한 새로운 확률모형을 제시한다. 저자들은 LOS를 두 개의 근본적인 과정, 즉 환자 자체의 회복 과정과 병원 관리·퇴원 과정으로 구분하고, 각각을 서로 다른 확률분포로 모델링한다. 구체적으로, 전체 LOS Y는 짧은 체류(Y_S)와 긴 체류(Y_L)의 혼합으로 표현되며, Y = π·Y_L + (1‑π)·Y_S 형태를 갖는다. 여기서 π는 짧은·긴 체류를 구분하는 베르누이 변수이며, Y_S는 로그정규와 같은 단일 연속분포로 가정한다. 반면 Y_L은 다시 두 단계로 분해된다. 첫 번째 단계 K는 환자 질환에 따른 회복 기간을 나타내며, 정수값을 갖는 음이항(Negative Binomial) 혹은 포아송·컨웨이‑맥스웰‑포아송 등 카운트 분포로 모델링한다. 두 번째 단계 E는 병원 내부 절차, 인력 배치, 퇴원 지연 등으로 인한 추가적인 체류 시간을 나타내며, 연속형 정규(또는 로그정규) 분포로 가정한다. 따라서 Y_L은 K와 E의 합성, 즉 컨볼루션 분포 f_{Y_L}(y)=∑_{k=0}^{∞} f_E(y‑k)·f_K(k) 로 기술된다. 모델 파라미터 추정은 두 가지 방법으로 수행된다. 첫 번째는 전통적인 최대우도법(Maximum Likelihood Estimation, MLE)으로, 로그우도 함수를 직접 수치 최적화한다. 이때 파라미터가 의미 있는 범위(예: 확률 p∈(0,1), 분산>0)를 벗어나지 않도록 변환 함수 h(·)를 적용한다. 두 번째는 기대-최대화(Expectation‑Maximization, EM) 알고리즘이다. 여기서는 잠재변수 Z∈{0,1}이 짧은·긴 체류 구분을 담당하고, 2‑차원 EM(2d‑EM)에서는 Z를 (C,S)=(K,E) 쌍으로 확장한다. E‑step에서는 현재 파라미터 하에 Z 혹은 (C,S)의 사후확률을 계산하고, M‑step에서는 이 기대값을 이용해 파라미터를 업데이트한다. 특히 K를 음이항으로 가정하면 무한합을 포함하는 컨볼루션 식을 폐쇄형 형태로 계산할 수 있어 연산 효율이 크게 향상된다. 실증분석에서는 호주 빅토리아 주에 속한 5개 병원의 실제 LOS 데이터를 사용하였다. 데이터는 입원일자와 퇴원일자, 환자 연령, 진단코드, 병동 유형 등 다양한 공변량 X를 포함한다. 모델은 K를 음이항(r, p), E를 정규(μ, σ²)로 설정하고, Y_S를 로그정규(μ_S, σ_S²)로 가정하였다. 추정 결과, π≈0.35로 전체 환자의 약 35%가 “긴 체류” 그룹에 속함을 확인했으며, K의 평균(=r·(1‑p)/p)과 E의 평균(μ)은 각각 환자 질환 중증도와 병원 운영 효율성을 반영한다는 해석을 제시한다. 회귀 확장으로 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기