교통사고 빈도 분석을 위한 마코프 전이 카운트 모델과 영 인플레이션 모델의 비교

본 연구는 도로 구간별 사고 발생 횟수 데이터에 나타나는 과잉 영(0)값을 설명하기 위해 두 상태 마코프 전이 음이항 모델(MSNB)을 제안하고, 전통적인 영-인플레이션 음이항 모델(ZINB)과 베이지안 MCMC 추정법을 이용해 비교한다. 실증 결과 MSNB가 적합도와 상태 추정 측면에서 ZINB보다 우수함을 확인하였다.

저자: Nataliya V. Malyshkina, Fred L. Mannering

교통사고 빈도 분석을 위한 마코프 전이 카운트 모델과 영 인플레이션 모델의 비교
본 논문은 교통안전 분야에서 흔히 관측되는 ‘과잉 영(0)’ 현상을 통계적으로 모델링하는 새로운 접근법을 제시한다. 기존에 널리 사용되어 온 영-인플레이션 포아송(ZIP) 및 영-인플레이션 음이항(ZINB) 모델은 두 가지 잠재 상태—‘영 상태’와 ‘정상 카운트 상태’를 가정하지만, 실제 도로 구간이 어느 상태에 있는지를 직접 추정하지 못하고, 시간에 따라 상태가 변하는 과정을 명시적으로 모델링하지 못한다는 한계가 있다. 이러한 문제점을 보완하고자 저자들은 두 상태 마코프 전이 카운트 모델, 특히 마코프 전이 음이항 모델(MSNB)을 제안한다. MSNB 모델은 각 도로 구간 n과 시간 t에 대해 잠재 상태 변수 sₜ,ₙ∈{0,1}을 도입한다. sₜ,ₙ=0이면 ‘영 사고 상태’로 가정하여 해당 구간·시점에서 사고가 발생할 확률이 실질적으로 0에 가깝다고 본다(수식적으로는 I(Aₜ,ₙ)=1_{Aₜ,ₙ=0}). sₜ,ₙ=1이면 ‘정상 카운트 상태’로, 사고 횟수는 음이항 분포 NB(Aₜ,ₙ|λₜ,ₙ,α) 로 생성된다. λₜ,ₙ은 로그선형 회귀 λₜ,ₙ=exp(β′Xₜ,ₙ) 로 설명되며, Xₜ,ₙ은 도로 길이, 곡률, 경사, 교통량 등 다양한 도로 특성을 포함한다. 상태 전이는 2‑state 마코프 체인으로 모델링되며, 전이 확률 p₀→₁⁽ⁿ⁾와 p₁→₀⁽ⁿ⁾는 구간별 고유 파라미터이다. 이 전이 확률을 통해 각 구간이 시간에 따라 영 상태와 정상 상태 사이를 전이하는 동태성을 포착한다. 전이 확률이 일정하게 유지되는 ‘정상성(stationarity)’ 가정 하에, 장기적인 상태 비율 ¯p₀⁽ⁿ⁾와 ¯p₁⁽ⁿ⁾를 도출할 수 있다. 모델 추정은 베이지안 프레임워크를 채택한다. 사전분포는 파라미터에 대해 거의 평탄하게 설정하고, 상태 변수 S=(s₁,₁,…,s_T,₁,…,s₁,N,…,s_T,N) 역시 마코프 전이 구조에 따라 사전을 부여한다. 복잡한 사후분포는 마코프 체인 몬테카를로(MCMC) 샘플링을 통해 근사한다. 저자들은 MATLAB 기반의 MCMC 코드를 구현하여 충분히 긴 체인을 수집하고, 수렴성을 진단하였다. 비교 대상으로는 두 가지 ZINB 변형을 사용한다. 첫 번째는 qₜ,ₙ=1/(1+e^{−τ·log λₜ,ₙ}) 로 정의된 ZINB‑τ, 두 번째는 qₜ,ₙ=1/(1+e^{−γ′Xₜ,ₙ}) 로 정의된 ZINB‑γ이다. 두 모델 모두 영 상태에 있을 확률 qₜ,ₙ을 혼합 비율로 사용하지만, 실제 상태 sₜ,ₙ을 직접 추정하지 않으며, qₜ,ₙ 자체가 파라미터이므로 상태에 대한 명시적 해석이 제한된다. 실증 분석은 인디애나 주 고속도로 335개 구간을 대상으로 5년(2010‑2014) 동안의 사고 발생 횟수를 사용하였다. 총 관측치 T×N=5×335=1,675개이며, 각 구간·연도별로 MSNB와 ZINB 모델을 추정하였다. 모델 적합도 평가는 베이지안 팩터(두 모델의 마진럴 라이클리후드 비)와 DIC(Deviance Information Criterion)를 활용하였다. 결과는 MSNB가 ZINB‑τ와 ZINB‑γ에 비해 베이지안 팩터가 약 3배 이상 높고, DIC 값이 150점 이상 낮아 통계적으로 유의하게 우수함을 보여준다. 또한, MSNB는 사후 샘플을 통해 각 구간·연도별 상태 확률 P(sₜ,ₙ=0|Y) 를 직접 계산할 수 있다. 이를 시각화하면 특정 구간이 일정 기간 동안 영 상태에 머물다 갑자기 정상 상태로 전이하거나, 반대로 사고 위험이 급증하는 패턴을 식별할 수 있다. 이러한 정보는 도로 관리자가 위험 구간을 선제적으로 파악하고, 안전 개선 조치를 시기적절히 시행하는 데 실질적인 도움을 준다. 논문의 한계로는 전이 확률을 구간별로 독립적으로 추정함에 따라 파라미터 수가 구간 수와 동일하게 늘어나, 데이터가 충분히 많지 않을 경우 과적합 위험이 존재한다는 점을 들었다. 또한, 마코프 체인의 1차 마크오프 가정이 실제 교통 환경에서 완전히 성립하지 않을 수 있다(예: 장기적인 구조적 변화나 외부 충격). 저자들은 이러한 한계를 보완하기 위해 전이 확률을 도로 특성이나 외부 요인과 연결하는 계층적 베이지안 모델, 혹은 비정상 전이(예: 구조적 파손, 대규모 공사) 를 포함하는 확장 마코프 모델을 향후 연구 과제로 제시한다. 결론적으로, 이 연구는 영-인플레이션 모델이 제공하지 못하는 ‘상태의 직접 추정’과 ‘시간적 전이 동태’를 마코프 전이 카운트 모델을 통해 구현함으로써 교통사고 빈도 분석에 새로운 통계적 도구를 제공한다. 베이지안 MCMC 기반 추정은 복잡한 잠재 구조를 효과적으로 다룰 수 있음을 보여주며, 실증 결과는 실제 데이터에 적용했을 때도 기존 모델보다 우수한 적합도를 나타낸다. 이러한 접근은 교통 안전 정책뿐 아니라, 범죄 발생, 질병 발병 등 영값이 과잉인 다양한 카운트 데이터 분야에도 확장 가능성을 시사한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기