고차원 랜덤 파티션을 위한 수직 합의 추론

본 논문은 고차원 데이터의 베이지안 클러스터링에서 발생하는 차원 저주를 극복하기 위해 데이터를 변수 기준으로 수직으로 분할하고, 각 샤드별 사후분포를 엔트로피 정규화된 와서스테인 바시론을 이용해 결합하는 수직 합의 추론(VCI) 프레임워크를 제안한다. VCI는 일반 베이지안 비모수 모델의 계층적 구조와 일반화 베이즈 해석을 변분 근사로 연결시키며, 저차원에서는 전체 데이터에 대한 클러스터링과 거의 동일한 결과를, 고차원에서는 비정보 차원을 효과…

저자: Khai Nguyen, Yang Ni, Peter Mueller

본 논문은 고차원 데이터에서 베이지안 클러스터링이 직면하는 차원 저주 문제를 해결하기 위해 “수직 합의 추론”(Vertical Consensus Inference, VCI)이라는 새로운 프레임워크를 제안한다. 기존 베이지안 비모수 클러스터링(디리클레 프로세스, 피트만-예 등)은 관측치 수에 비해 변수 수가 크게 늘어나면 사후분포가 단일 클러스터 혹은 모든 관측치를 각각의 클러스터로 분리하는 비현실적인 해에 수렴한다는 한계가 있다. 이러한 현상은 고차원 가우시안 커널과 사전 분포 간의 불균형에서 비롯된다. VCI는 데이터를 관측치 차원은 그대로 유지하면서 변수 차원을 K개의 “수직 샤드”(vertical shards)로 나눈다. 각 샤드 k는 p_k 차원을 포함하며, 샤드 간 겹침이 없을 경우 Σ_k p_k = p가 된다. 샤드별로 독립적인 베이지안 클러스터링을 수행해 파티션 z에 대한 사후분포 p_k(z|X^{(k)})를 얻는다. 여기서 z = (z₁,…,z_n) 은 각 관측치가 속한 클러스터를 나타내는 지시자이다. 다음 단계는 샤드별 사후분포를 하나의 전역 사후분포로 결합하는 것이다. 이를 위해 논문은 엔트로피 정규화된 와서스테인 바시론을 도입한다. 와서스테인 거리 W_c(p₁,p₂)는 두 확률 측정 사이의 최적 수송 비용을 정의하며, 여기서 c는 파티션 공간 Z 위의 지상 메트릭이다. 저자는 변이 정보(Variation of Information, VoI)를 지상 메트릭으로 선택한다. VoI는 두 파티션의 엔트로피와 상호 정보량을 이용해 정의되며, 클러스터링 결과의 구조적 차이를 정량화한다. 엔트로피 정규화(ε>0)를 적용하면 최적 수송 문제를 O(m²) 복잡도로 근사할 수 있다. 여기서 m은 각 사후분포가 가질 수 있는 원자(가능한 파티션)의 수이다. 바시론은 다음 최적화 문제로 정의된다: \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기