균등 과정 기반 비모수 베이즈 클러스터링: 풍부함 편향을 넘어선 새로운 사전 분포
본 논문은 전통적인 디리클레·피트만‑요르 과정이 갖는 “부자에게 더 부여”(rich‑get‑richer) 특성을 탈피하기 위해 균등 과정을 사전 분포로 제안한다. 균등 과정은 기존 클러스터 크기에 무관하게 새로운 관측치를 임의의 기존 클러스터에 균등하게 할당하며, 이는 교환 가능성(exchangeability)을 잃지만 실험적으로 순서에 강인함을 보인다. 저자는 이 과정의 점근적 특성(클러스터 수는 N¹ᐟ² 비율로 증가)과 시뮬레이션 결과를 제…
저자: Hanna M. Wallach, Shane T. Jensen, Lee Dicker
본 논문은 비모수 베이즈 클러스터링에서 널리 사용되는 디리클레 과정(DP)과 피트만‑요르 과정(PY)이 내재하고 있는 “부자에게 더 부여”(rich‑get‑richer) 특성을 비판적으로 검토하고, 이를 대체할 새로운 사전 분포인 균등 과정(Uniform Process, UP)을 제안한다.
1. **배경 및 동기**
DP와 PY는 무한 혼합 모델에서 클러스터 수를 사전에 지정하지 않아도 되는 장점으로 널리 채택돼 왔다. 그러나 두 과정 모두 예측 확률이 기존 클러스터의 크기에 비례하도록 설계돼 있어, 새로운 데이터가 큰 클러스터에 몰리는 경향이 있다. 이는 데이터가 실제로 균등한 크기의 클러스터를 가질 때 부적절한 편향을 초래한다.
2. **균등 과정 정의**
UP는 다음과 같은 예측 확률을 갖는다.
- 기존 K개의 클러스터 중 하나에 할당될 확률: 1/(K+θ) (모든 클러스터에 동일)
- 새로운 클러스터를 생성할 확률: θ/(K+θ)
여기서 θ는 농축 파라미터이며, 클러스터 크기와 무관하게 균등하게 할당한다.
3. **교환 가능성 문제**
DP와 PY는 순열에 대해 파티션 확률 P(c)가 변하지 않는 교환 가능성을 유지한다. 반면 UP는 순서에 따라 P(c)가 달라지는 비교환 가능성을 갖는다. 저자는 이를 인정하고, 고정된 순서에 대한 Gibbs 샘플링 알고리즘을 설계했으며, 다양한 순열에 대해 파티션 확률이 크게 변하지 않음을 실험적으로 확인했다.
4. **점근적 특성**
- DP: E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기