베이지안 비모수와 k‑평균의 새로운 연결 고리

본 논문은 디리클레 과정(DP)과 계층적 디리클레 과정(HDP) 기반의 베이지안 비모수 모델을 고전적인 k‑means와 연결시켜, 클러스터 수를 자동으로 조절하면서도 스케일러블한 하드 클러스터링 알고리즘을 제안한다. DP‑means와 HDP‑means는 각각 단일 데이터셋과 다중 데이터셋에 적용되며, 클러스터 생성 비용 λ를 통해 클러스터 수에 대한 페널티를 부여한다. 또한, 이 목표 함수를 스펙트럴 완화와 정규화 컷 그래프 클러스터링에 확장한…

저자: Brian Kulis, Michael I. Jordan

베이지안 비모수와 k‑평균의 새로운 연결 고리
이 논문은 베이지안 비모수 모델과 전통적인 k‑means 클러스터링 사이의 깊은 연결 고리를 탐구한다. 먼저, 가우시안 혼합 모델에서 공분산을 σI 로 고정하고 σ→0 로 보낼 때 EM 알고리즘의 E‑step이 k‑means의 할당 단계와 동일해지는 고전적인 결과를 재확인한다. 이를 바탕으로 디리클레 과정(DP) 기반의 무한 가우시안 혼합 모델에 Gibbs 샘플링을 적용한다. 여기서 핵심은 σ→0 와 동시에 α를 λ에 의존하도록 스케일링하는 것이다. 이 스케일링은 할당 확률을 가장 가까운 기존 클러스터와 새로운 클러스터 생성 여부(거리 > λ) 중 하나로 이진화시킨다. 결과적으로, 기존의 소프트 할당을 하드 할당으로 전환한 “DP‑means” 알고리즘이 도출된다. DP‑means는 k‑means와 동일한 반복 구조(할당 → 평균 업데이트)를 가지지만, 클러스터 수에 λ·k 라는 선형 페널티를 추가한다. 논문은 이 목표 함수가 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기