무한 히든 마코프 모델을 활용한 유전자 발현 시간코스 클러스터링
초록
본 논문은 유전자 발현 시간코스 데이터를 클러스터링할 때, 시간 순서를 고려하고 모델 복잡도를 자동으로 조정할 수 있는 무한 히든 마코프 모델(HDP‑HMM)을 제안한다. 계층적 디리클레 과정(HDP)으로 무한 상태 공간을 구현하고, 베이지안 추론을 통해 상태 수와 전이 구조를 데이터에 맞게 학습한다. 두 개의 대규모 공개 데이터셋에 대해 전통적인 시간‑독립 클러스터링 및 유한 HMM 기반 방법과 비교했을 때, 외부·내부 군집 지표 모두에서 우수한 성능을 보이며, 과적합 없이 풍부한 전이 패턴을 포착한다는 결과를 제시한다.
상세 분석
이 연구는 유전자 발현 시간코스 클러스터링에서 가장 큰 난제 중 하나인 “시간 순서의 의미를 어떻게 모델링하느냐”와 “모델 복잡도를 어떻게 적절히 선택하느냐”를 동시에 해결한다는 점에서 학술적·실용적 가치를 갖는다. 기존 방법들은 각 시간점을 독립적인 차원으로 취급하거나, 순열에 불변인 거리 기반 군집화를 사용해 시간적 연속성을 무시한다. 반면 HMM 기반 접근은 전이 확률을 통해 순서를 반영하지만, 사전에 상태 수(K)를 지정해야 하며, K가 작으면 모델이 과소적합되고, 크면 과적합 위험이 커진다. 논문은 이를 극복하기 위해 무한 상태 공간을 갖는 HDP‑HMM을 도입한다. HDP는 각 상태의 전이 분포를 디리클레 프로세스로 공유함으로써, 새로운 상태가 필요할 때 자동으로 생성하도록 한다. 이는 베이지안 비모수 방법론의 핵심 아이디어이며, Teh et al. (2006)의 HDP‑HMM 프레임워크를 그대로 차용한다.
추론 단계에서는 전통적인 Gibbs 샘플링 대신 ‘비트 샘플링(beam sampling)’을 활용해 상태 시퀀스와 전이 행렬을 효율적으로 샘플링한다. 이 과정에서 하이퍼파라미터 α(상태 전이의 집중도)와 γ(새 상태 생성 확률)를 데이터에 맞게 학습함으로써, 모델 복잡도가 데이터에 의해 자연스럽게 조절된다. 실험에서는 두 개의 공개 데이터셋(예: Spellman’s yeast cell‑cycle 데이터와 Human cell‑line time‑course 데이터)을 사용했으며, 클러스터링 성능을 평가하기 위해 Rand Index, Adjusted Mutual Information, Silhouette Score 등 외부·내부 지표를 모두 적용했다. 결과는 무한 모델이 유한 HMM(다양한 K값을 탐색한 모델 선택 포함)과 전통적인 k‑means, hierarchical clustering보다 일관되게 높은 점수를 기록했다. 특히, 무한 모델은 평균 15~20개의 숨은 상태를 활용했으며, 이는 실제 생물학적 단계(예: 세포 주기 단계)와 높은 상관성을 보였다.
또한, 모델이 복잡한 전이 구조(예: 비대칭 전이, 순환 구조)를 학습하면서도 과적합 현상이 거의 없다는 점을 정량적으로 입증했다. 이는 HDP‑HMM이 전이 확률을 디리클레 프로세스로 공유함으로써, 불필요한 파라미터를 자동으로 억제하기 때문이다. 한편, 계산 복잡도는 상태 수가 데이터에 따라 동적으로 변하기 때문에 고정된 K를 갖는 유한 HMM보다 약간 높은 편이지만, 현대의 병렬 Gibbs 구현을 통해 실용적인 시간 안에 수천 개의 유전자 시퀀스를 처리할 수 있었다. 논문의 한계로는 하이퍼파라미터 초기값에 대한 민감도와, 매우 긴 시간코스(수백 단계)에서 샘플링 효율이 떨어질 수 있다는 점을 들 수 있다. 향후 연구에서는 변분 추론이나 스토캐스틱 변분 베이지안 방법을 도입해 스케일업을 시도할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기