EM 알고리즘을 이용한 혼합 전이 분포 모델 추정

본 논문은 고차 마코프 체인의 파라미터 수를 크게 줄이는 혼합 전이 분포(MTD) 모델의 최대우도 추정을 위해 EM(Expectation‑Maximization) 알고리즘을 개발한다. 기존 베르히톨드의 제한된 최적화 방법보다 구현이 간단하고 수렴성이 우수함을 보이며, DNA 서열과 같은 실제 데이터에 적용했을 때 BIC 기준으로 완전 마코프 모델을 능가한다.

저자: Sophie L`ebre (SG), Pierre-Yves Bourguinon (SG)

본 논문은 고차 마코프 체인의 파라미터 폭발 문제를 해결하기 위해 제안된 혼합 전이 분포(Mixture Transition Distribution, MTD) 모델의 파라미터 추정 방법을 새롭게 고안한다. 먼저 MTD 모델의 정의와 기존 연구들을 정리한다. MTD는 현재 상태 Y_t 가 과거 m 개의 시차 Y_{t‑g} 각각에 대해 별도의 전이 행렬 π_g 와 가중치 ϕ_g 를 통해 가산적으로 결정되는 구조이며, 이로 인해 파라미터 차원이 O(m·q²) 에서 O(m·q) 정도로 크게 감소한다. 그러나 ϕ와 π에 대한 확률적 제약(비음성, 합계 1) 때문에 직접적인 최대우도 추정이 어려워 기존에는 제한된 최적화(베르히톨드 알고리즘)나 최소 χ² 방법이 사용되었다. 저자들은 MTD 모델을 “숨은 변수” S_t 가 선택한 하나의 마코프 체인 π_{S_t} 에 의해 Y_t 가 생성되는 혼합 모델로 재해석한다. 여기서 S_t∈{1,…,m} 은 독립적으로 ϕ에 비례하는 확률을 갖는다. 이 해석을 바탕으로 EM(Expectation‑Maximization) 알고리즘을 도입한다. EM는 두 단계로 구성된다. **E‑step**에서는 현재 파라미터 θ^{old} 하에 각 시점 t 에 대해 γ_t(g)=P(S_t=g | Y,θ^{old}) 를 계산한다. 이는 현재 관측된 전이 (y_{t‑g},y_t) 에 대한 가중치 ϕ_g 와 전이 확률 π_g 의 비례식으로 구해진다. **M‑step**에서는 기대 로그우도 E_{S|Y,θ^{old}}

EM 알고리즘을 이용한 혼합 전이 분포 모델 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기