잠재 블록 모델을 활용한 베이지안 블록 클러스터링

초록

본 논문은 블록 파라미터를 사후분포에서 적분한 베이지안 잠재 블록 모델을 제안한다. 행과 열 클러스터 수를 사전 지정하지 않고, 마코프 체인 몬테카를로(MCMC) 샘플링을 통해 클러스터 수와 멤버십을 동시에 추정한다. 시뮬레이션 및 실제 데이터 실험을 통해 기존 방법보다 유연하고 정확한 블록 클러스터링을 입증한다.

상세 분석

이 연구는 전통적인 잠재 블록 모델(LBM)의 한계를 극복하기 위해 완전 베이지안 접근을 도입한다. 기존 LBM은 블록 파라미터를 명시적으로 추정하고, 행·열 클러스터 수를 사전에 고정하거나 정보 기준(AIC, BIC 등)으로 선택한다는 제약이 있었다. 저자들은 블록 파라미터에 대한 공액 사전분포를 설정하고, 이를 사후분포에서 적분함으로써 ‘collapsed’ 형태의 모델을 만든다. 이 과정에서 파라미터 공간이 축소되어 MCMC 샘플링이 보다 효율적으로 진행될 수 있다.

핵심은 행 클러스터 수(K)와 열 클러스터 수(L)를 각각 정수형 확률변수로 두고, 디리클레 사전과 포아송·베타 사전 등 적절한 비제한 사전으로 모델링한다는 점이다. 이렇게 하면 K와 L 자체도 MCMC 단계에서 제안·수용(reversible‑jump 혹은 birth‑death) 메커니즘을 통해 변동될 수 있다. 따라서 클러스터 수를 미리 지정할 필요가 없으며, 데이터에 가장 적합한 복잡도를 자동으로 탐색한다.

알고리즘은 크게 두 부분으로 구성된다. 첫째, 현재 클러스터 할당을 고정한 채 블록 파라미터를 적분한 ‘collapsed likelihood’를 계산한다. 이때 각 블록의 충분통계량(예: 이항 데이터의 성공 횟수, 정규 데이터의 평균·분산)만 저장하면 되므로 메모리와 계산량이 크게 절감된다. 둘째, Gibbs 샘플링과 Metropolis–Hastings 제안을 결합해 행·열 할당을 순차적으로 업데이트한다. 행 할당 업데이트는 현재 열 클러스터 구성을 조건으로, 각 행이 어느 클러스터에 속할 확률을 비례적으로 계산한다. 열 할당도 동일한 방식으로 진행한다. 클러스터 수 변동 단계에서는 새로운 클러스터를 생성하거나 기존 클러스터를 삭제하는 제안을 수행하고, 사전 확률과 collapsed likelihood 비율을 이용해 수용 여부를 결정한다.

라벨 스위칭 문제는 베이지안 클러스터링 전반에 걸친 난제이지만, 저자들은 사후 샘플을 정렬하는 post‑processing 절차(예: 최소 편차 매칭)를 적용해 해석 가능성을 확보한다. 또한, 모델 수렴성을 확인하기 위해 여러 체인과 Gelman‑Rubin 진단을 수행하였다.

실험에서는 이산형(이항) 및 연속형(정규) 데이터 시뮬레이션을 통해 복원 정확도와 클러스터 수 추정 능력을 평가했다. 특히, 데이터 차원이 커지고 클러스터 간 차이가 미미할 때도 제안 방법은 높은 정확도를 유지했다. 실제 데이터로는 유전자 발현 매트릭스와 의회 투표 행렬을 사용했으며, 기존 LBM(고정 K, L)과 비교했을 때 더 직관적인 블록 구조와 적절한 클러스터 수를 도출했다.

이 논문의 주요 기여는 (1) 블록 파라미터를 적분한 collapsed Bayesian LBM 설계, (2) 클러스터 수를 데이터에 의해 자동 추정하는 MCMC 프레임워크, (3) 계산 효율성을 높인 충분통계량 기반 구현이다. 한계점으로는 복잡한 사전 설계가 필요하고, 매우 큰 행·열 규모에서는 여전히 샘플링 비용이 부담될 수 있다는 점이다. 향후 연구에서는 변분 추정이나 스파스 구조를 활용한 확장, 그리고 비정형 데이터(예: 그래프 기반)로의 적용 가능성을 탐색할 여지가 있다.