두‑뷰 클러스터링: 확률 모델에서 결정론적 알고리즘까지

TVClust는 데이터와 쌍별 제약(소프트 컨스트레인트)을 두 개의 독립적인 뷰로 모델링한 비모수 베이지안 프레임워크이다. Gibbs 샘플링으로 사후 추론을 수행하고, 작은 분산 근사(small‑variance asymptotics)를 적용해 RDP‑means라는 K‑means 확장 알고리즘을 도출한다. RDP‑means는 클러스터 수를 자동 결정하고, 노이즈가 섞인 제약을 견고하게 활용한다. 실험 결과, 제약이 불완전하거나 k값이 잘못 지정된…

저자: Daniel Khashabi, John Wieting, Jeffrey Yufei Liu

본 논문은 “두‑뷰 클러스터링(TVClust)”이라는 새로운 프레임워크를 제안한다. 데이터와 제약이라는 두 개의 독립적인 관점을 베이지안 비모수 모델에 결합함으로써, 각각을 별도의 확률적 생성 과정으로 모델링한다. 1. **모델 설계** - **데이터 뷰**: 관측값 \(x_i\in\mathbb{R}^p\)는 디리클레 프로세스(DP) 혼합 모델에 의해 생성된다. 즉, 클러스터 파라미터 \(\theta_i\)는 베이스 분포 \(G_0\)에서 뽑힌 뒤, DP(α, \(G_0\))에 의해 공유된다. 이는 전통적인 무한 가우시안 혼합 모델과 동일한 구조이며, 클러스터 수 K는 사전에 지정되지 않는다. - **제약 뷰**: 제약 행렬 \(E\)는 각 쌍 \((i,j)\)에 대해 1(가능한 동일 클러스터), 0(가능한 다른 클러스터), NULL(정보 없음)으로 표시된다. 실제 클러스터링 구조를 나타내는 이진 행렬 \(H\)와의 관계를 노이즈 모델로 정의한다. 구체적으로, \(p\)는 “친구”(E=1) 가 실제로 같은 클러스터에 있을 확률, \(q\)는 “적”(E=0) 가 실제로 다른 클러스터에 있을 확률이다. 이 확률은 베타 사전으로 확장 가능하지만, 논문에서는 고정값으로 가정한다. 2. **베이지안 추론** - 전체 그래프 모델은 \(\{x_i\},\{E_{ij}\},\{\theta_i\}\)를 연결한다. Gibbs 샘플링을 이용해 \(\theta_i\)와 클러스터 할당 \(z_i\)를 순차적으로 업데이트한다. 핵심은 (11)식에서 보이는 것처럼, 기존 클러스터에 속할 확률이 클러스터 크기 \(n_{-i,k}\)뿐 아니라 해당 클러스터 내 “친구” 수 \(f_{ik}\)와 “적” 수 \(s_{ik}\)에 의해 가중된다는 점이다. 즉, \

두‑뷰 클러스터링: 확률 모델에서 결정론적 알고리즘까지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기