변분 HEM을 이용한 은닉 마코프 모델 클러스터링
초록
본 논문은 은닉 마코프 모델(HMM)들의 집합을 계층적 EM(HEM) 프레임워크에 변분 근사를 적용해 클러스터링하는 새로운 알고리즘(VHEM)을 제안한다. VHEM은 각 클러스터를 대표하는 새로운 HMM을 생성하면서도 계산량을 크게 줄이고, 대규모 시계열 데이터에 대한 학습 효율과 모델 일반화 능력을 향상시킨다. 실험은 모션 캡처, 음악 자동 태깅, 온라인 필기 인식 등에서 기존 방법 대비 성능·속도·메모리 측면에서 우수함을 입증한다.
상세 분석
본 연구는 HMM이라는 확률적 시계열 모델을 직접 클러스터링하는 문제에 착안한다. 전통적인 클러스터링은 관측 시퀀스를 직접 다루지만, 여기서는 이미 학습된 HMM 파라미터 자체를 데이터 포인트로 간주한다. 이는 “모델 간 거리”를 정의해야 하는데, 저자들은 두 HMM이 생성하는 확률 분포의 Kullback‑Leibler 발산을 근사하는 변분 하한을 이용한다. 변분 HEM(Variational HEM, VHEM)은 기존 HEM의 E‑step에서 기대 로그우도 계산이 불가능한 점을 변분 베이즈 추정으로 대체한다. 구체적으로, 각 하위 HMM의 숨은 상태 시퀀스를 가상의 잠재 변수로 두고, 이 변수에 대한 변분 분포를 가우시안 형태의 파라미터화된 마코프 체인으로 근사한다. 이렇게 하면 기대값을 닫힌 형태로 계산할 수 있어, 복잡도는 O(K·S²·T) 정도로 제한된다(여기서 K는 클러스터 수, S는 상태 수, T는 시퀀스 길이).
M‑step에서는 변분 하한을 최대화하기 위해 클러스터 중심 HMM의 전이 행렬, 방출 분포, 초기 상태 분포를 업데이트한다. 특히 방출 분포가 가우시안 혼합 모델(GMM)인 경우, 각 혼합 성분에 대한 책임(weight)과 충분통계량을 클러스터에 속한 모든 하위 HMM으로부터 집계한다. 이 과정은 “모델 평균화”라고도 불리며, 클러스터 중심이 실제 데이터가 아니라 하위 모델들의 평균적인 생성 메커니즘을 반영한다는 점에서 의미가 크다.
알고리즘의 수렴 특성도 논문에서 검증한다. 변분 하한이 매 반복마다 비감소함을 보이며, 실제 실험에서는 10~15회 반복이면 충분히 수렴한다. 또한, 메모리 사용량은 각 하위 HMM의 파라미터만 저장하면 되므로, 대규모 데이터셋에서도 GPU 메모리 제한을 크게 초과하지 않는다.
실험 섹션에서는 세 가지 도메인을 선택했다. 첫 번째는 CMU 모션 캡처 데이터베이스에서 추출한 관절 각도 시퀀스를 HMM으로 모델링하고, 이를 계층적 클러스터링해 동작 유사성을 파악한다. VHEM은 기존 K‑means 기반 클러스터링보다 클러스터 내 평균 KL 발산이 15% 감소하고, 시각적으로도 더 일관된 동작 그룹을 만든다. 두 번째는 음악 트랙의 MFCC 시퀀스를 HMM으로 표현해 자동 태깅에 활용한다. 여기서는 VHEM이 태깅 정확도를 3~5% 향상시키고, 학습 시간은 기존 EM 대비 40% 단축된다. 세 번째는 온라인 손글씨 데이터(다중 스트로크)에서 각 글자를 HMM으로 학습하고, 클러스터 중심을 이용해 새로운 글자 인식을 수행한다. VHEM 기반 모델은 잡음이 많은 입력에서도 강인한 성능을 보이며, 메모리 사용량이 절반 이하로 감소한다.
이러한 결과는 VHEM이 “대규모 모델 집합을 압축”하면서도 원본 모델들의 표현력을 유지한다는 점을 시사한다. 특히, 변분 근사를 통해 HEM의 계산 병목을 해소한 것이 핵심이며, 이는 다른 복합 확률 모델(예: 숨은 세미‑마코프 모델, 동적 베이즈 네트워크)에도 일반화 가능할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기