모델 기반 계층적 클러스터링: 베이즈 최적화와 특징 분할
** 베이즈 관점에서 목표 함수를 정의하고, 각 클러스터와 특징을 서로 다른 분포로 모델링하는 새로운 계층적 클러스터링 방법을 제안한다. 문서 데이터를 멀티노미얼-디리클레트 모델에 적용해, 자동으로 클러스터 수·트리 깊이·공통 특징 집합을 결정한다. 실험 결과는 합성 데이터와 실제 문서 컬렉션 모두에서 기존 방법보다 우수함을 보여준다. **
저자: Shivakumar Vaithyanathan, Byron E Dom
**
1. **연구 배경 및 필요성**
- 전통적인 클러스터링은 평면 구조에 머물러 데이터가 가지고 있는 다중 레벨(계층) 관계를 반영하지 못한다.
- 특히 텍스트와 같은 고차원 희소 데이터에서는 일부 피처가 특정 클러스터에만 의미가 있고, 다른 피처는 여러 클러스터에 걸쳐 공통적인 의미를 갖는다. 이러한 특성을 동시에 모델링할 수 있는 방법이 요구된다.
2. **모델 설계**
- 베이즈 관점에서 전체 데이터에 대한 마진 라이클리후드(증거)를 목표 함수로 설정한다.
- 각 피처는 두 가지 분포 가정 중 하나를 선택한다.
* **클러스터 전용 분포**: 피처가 각 클러스터마다 별도의 파라미터를 가진다.
* **공통 분포**: 피처가 특정 클러스터 집합(노드) 전체에 동일한 파라미터를 공유한다.
- 이러한 피처‑분할은 트리의 각 노드와 직접 연결되며, 노드가 병합될 때 피처가 전용→공통 혹은 그 반대로 전환될 수 있다.
3. **확률 모델**
- 문서 클러스터링에 멀티노미얼 분포를 사용하고, 디리클레트 사전으로 파라미터를 정규화한다.
- 마진 라이클리후드는 클러스터 수, 트리 깊이, 피처 전환 여부에 대한 자동 페널티 역할을 수행한다.
4. **알고리즘**
- **1단계: 평면 클러스터링**
* K‑means, EM 등 기존 방법으로 초기 클러스터를 만든다.
- **2단계: 수정된 계층적 병합**
* 기존의 Agglomerative Clustering 절차에 두 클러스터 병합 시 마진 라이클리후드 증가량을 계산한다.
* 병합 후 각 피처에 대해 사후 확률을 이용해 공통‑특징 여부를 재평가한다.
* 마진 라이클리후드가 증가하는 경우에만 병합을 수행하고, 피처 전환을 동시에 적용한다.
- 이 과정을 반복해 최종 트리를 얻으며, 과정 중에 클러스터 수·트리 깊이·피처 집합이 동적으로 조정된다.
5. **실험 설계**
- **합성 데이터**: 다중 가우시안·다중 멀티노미얼 분포를 이용해 사전에 정의된 트리 구조를 생성하고, 복원 정확도를 평가.
- **실제 데이터**: 뉴스 기사(Reuters, 20 Newsgroups 등) 컬렉션을 사용해 토픽 트리를 도출하고, NMI, ARI, 클러스터 내 일관성 등을 기존 방법(K‑means, Ward, BIRCH, Hierarchical Dirichlet Process 등)과 비교.
6. **결과 및 분석**
- 합성 데이터에서는 제안 방법이 정확히 원래 트리 구조를 복원했으며, 마진 라이클리후드 기반 자동 모델 선택이 정상 작동함을 확인.
- 실제 데이터에서는 의미 있는 주제 계층(예: “스포츠 → 축구 → 프리미어리그”)을 도출했고, 정량적 지표에서 기존 방법보다 5~12% 정도 향상.
- 공통‑특징을 자동으로 선택함으로써 잡음 피처(불용어, 드물게 등장하는 단어 등)를 효과적으로 제외, 클러스터 해석성을 크게 개선.
7. **의의 및 향후 연구**
- 베이즈 증거를 이용해 클러스터 수·트리 깊이·피처 집합을 동시에 최적화한 최초의 계층적 클러스터링 프레임워크라 할 수 있다.
- 피처‑분할 개념은 텍스트 외에도 이미지(공통 색상·패턴), 유전 데이터(공통 변이) 등 다양한 도메인에 적용 가능.
- 향후 연구에서는 (a) 사용자 정의 제약(예: 특정 피처는 반드시 공통)과 결합, (b) 비정형 데이터(그래프, 시계열)에서의 확장, (c) 대규모 데이터에 대한 효율적인 근사 알고리즘 개발을 제안한다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기