숨은 마코프 모델 학습을 위한 비음수 행렬 분해 접근법

숨은 마코프 모델 학습을 위한 비음수 행렬 분해 접근법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 관측 시퀀스의 고차 통계 행렬을 비음수 행렬 분해(NMF)하여 숨은 마코프 모델(HMM)의 상태 수와 전이·방출 확률을 추정하는 새로운 학습 알고리즘을 제안한다. 기존 Baum‑Welch 방식과 달리 원시 시퀀스 대신 prefix‑suffix 확률 행렬을 이용하며, NMF 결과를 통해 상태별 미래 관측 분포와 상태 사후 확률을 얻고, 이를 선형 방정식으로 전이 행렬을 복원한다. 반복적인 NMF‑전이 추정 과정을 통해 파라미터를 점진적으로 개선하고, 특잇값 분해를 활용해 모델 차원을 추정한다. 실험은 결정적 HMM을 대상으로 수행되어 제안 방법의 정확성과 수렴성을 확인한다.

**

상세 분석

**
이 논문은 HMM 학습을 전통적인 EM 기반 Baum‑Welch 알고리즘과는 근본적으로 다른 관점에서 접근한다. 핵심 아이디어는 관측 시퀀스 O₁:T 로부터 길이 p와 s 를 갖는 prefix‑suffix 빈도 행렬 R_{p,s} 를 만든 뒤, 이를 행별 정규화하여 확률 행렬 F_{p,s} 를 얻는 것이다. F_{p,s} 의 각 행은 “현재까지 관측된 p‑길이 prefix 가 주어졌을 때, 뒤따르는 s‑길이 suffix 가 나타날 확률”을 나타내며, 이 행렬은 비음수 행렬 C·D 로 분해될 수 있다. 여기서 D의 k번째 행은 상태 S_k 가 생성할 수 있는 s‑길이 suffix 의 확률 분포 P(·|S_k, s, λ) 를, C의 (u,k) 원소는 prefix U 가 주어졌을 때 시스템이 상태 S_k 에 있을 사후 확률 P(S_k|U, p, λ) 를 의미한다.

이 분해는 ‘양의 순위(prank)’ 개념과 연결된다. 이론적으로 F_{p,s} 의 최소 양의 순위는 모델이 필요로 하는 최소 상태 수 N 과 동일하지만, 양의 순위 계산은 NP‑hard 문제이다. 논문은 실용적인 대안으로 특잇값 분해(SVD)를 이용해 singular value gap 를 관찰함으로써 N 을 추정한다.

분해가 얻어지면 D 로부터 상태별 suffix 분포를 알 수 있고, 이를 이용해 전이 행렬 A^{(k)} 를 복원한다. 구체적으로는 D 의 (s‑1)‑길이 suffix 열을 합쳐 H 행렬을 만든 뒤, 식 D_{·,1:s‑1} = A^{(1)}·H 를 만족하도록 선형 방정식 시스템을 푼다. 이때 T 가 유한하고 수치 정밀도가 제한되므로 L₁ 노름 최소화와 같은 선형 프로그래밍 기법을 적용한다.

알고리즘은 다음과 같은 반복 흐름을 가진다. (1) 관측 데이터로부터 F_{p,s} 와 G 를 계산, (2) SVD 로 N 추정, (3) NMF 로 C·D 근사, (4) D 로부터 A^{(k)} 복원, (5) 복원된 λ 로 새로운 C₀, D₀ 를 생성해 NMF 를 재시작한다. 이 과정은 각 단계에서 로컬 최적해에 머물지만, 실험 결과는 반복할수록 KL‑divergence 가 감소하고 파라미터 추정이 안정화됨을 보여준다.

Baum‑Welch 과 비교했을 때, 제안 방법은 (i) 원시 시퀀스를 저장·반복 접근할 필요가 없어 메모리 요구가 낮다, (ii) 상태 수 추정이 자연스럽게 포함된다, (iii) NMF 가 제공하는 해석적 구조 덕분에 각 상태의 관측 분포를 직접 확인할 수 있다. 그러나 (a) NMF 가 로컬 최적에 수렴한다는 점, (b) p·s 가 커질수록 행렬 차원이 급증해 희소 행렬 관리가 필요하다는 점, (c) 양의 순위와 실제 상태 수 사이의 차이가 존재할 수 있다는 점은 아직 해결 과제로 남는다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기