베이지안 디리클레 프로세스 기반 감독 클러스터링 모델
초록
본 논문은 레퍼런스 매칭·코어퍼런스·신원 불확실성·레코드 연결 등에서 나타나는 감독 클러스터링 문제를 해결하기 위해 디리클레 프로세스(DP) 사전분포를 활용한 베이지안 프레임워크를 제안한다. 클러스터마다 공통적으로 존재하는 “레퍼런스 타입”이라는 잠재 변수를 도입해 감독 정보를 모델에 통합하고, 무한히 많은 파라미터에 대한 적분을 마코프 체인 몬테카를로(MCMC) 방법으로 수행한다. 공액(conjugate) 및 비공액(non‑conjugate) 사전 모두에 대한 샘플링 알고리즘을 제시하고, 가우시안 가정에 기반한 간단하면서도 일반적인 파라미터화 방식을 소개한다. 인공 데이터와 세 개의 실제 데이터셋에서 기존 비감독 및 최신 감독 알고리즘과 비교 실험을 수행한 결과, 제안 모델이 다양한 평가 지표에서 전반적으로 우수한 성능을 보였다.
상세 분석
이 논문은 감독 클러스터링이라는 특수한 형태의 군집화 문제에 베이지안 접근법을 적용함으로써 기존 방법들의 한계를 극복하고자 한다. 핵심 아이디어는 무한히 많은 클러스터를 자연스럽게 모델링할 수 있는 디리클레 프로세스(DP) 사전분포를 사용한다는 점이다. DP는 ‘무한 혼합 모델(infinite mixture model)’을 구현하는 표준 도구로, 클러스터 수를 사전에 고정하지 않고 데이터에 따라 자동으로 조정한다. 이는 레퍼런스 매칭이나 레코드 연결처럼 사전에 클러스터 수를 알기 어려운 실제 응용에 매우 적합하다.
감독 정보를 모델에 반영하기 위해 저자들은 “레퍼런스 타입(reference type)”이라는 잠재 변수를 도입한다. 레퍼런스 타입은 모든 클러스터에 공통적으로 존재하는 특성으로, 예를 들어 인물 이름의 표기 변형, 주소의 포맷 차이 등과 같은 변동성을 포착한다. 이러한 변수는 관측되지 않지만, 클러스터 할당과 결합될 때 각 데이터 포인트가 어느 레퍼런스 타입에 속하는지를 추론함으로써 감독 신호를 제공한다. 즉, 동일한 레퍼런스 타입에 속하는 데이터는 같은 클러스터에 속할 확률이 높아지도록 모델링한다.
모델 수식은 크게 두 부분으로 나뉜다. 첫 번째는 DP 기반의 클러스터 할당 과정으로, 각 데이터 포인트 i는 클러스터 z_i를 선택하고, 그 확률은 기존 클러스터의 크기와 베타 파라미터 α에 의해 결정된다. 두 번째는 레퍼런스 타입 θ_k와 각 클러스터에 대한 파라미터 φ_k를 정의하는 관측 모델이다. 저자들은 관측 모델을 가우시안 형태로 단순화하여, 데이터 x_i가 해당 클러스터와 레퍼런스 타입의 평균 μ_{z_i,θ_{z_i}} 주변에 정규분포를 따른다고 가정한다. 이때 공액 사전으로 정규-와이셔트(Normal‑Wishart)를 사용하면 사후 분포가 닫힌 형태로 얻어져 Gibbs 샘플링이 가능하다. 비공액 경우에는 메트로폴리스-헤이스팅스(MH) 스텝을 도입해 파라미터를 제안하고 수용한다.
추론은 무한 차원의 파라미터 공간을 다루어야 하므로, 저자들은 ‘스틱 브레이크(stick‑breaking)’ 표현과 ‘Chinese Restaurant Process(CRP)’ 메타포를 활용해 효율적인 MCMC 알고리즘을 설계한다. 구체적으로, 각 반복에서 (1) 현재 클러스터 할당을 기반으로 레퍼런스 타입과 클러스터 파라미터를 샘플링하고, (2) 새로운 클러스터를 생성하거나 기존 클러스터에 할당할 확률을 재계산한다. 공액 경우에는 Gibbs 샘플링이 전형적인 형태를 띠며, 비공액 경우에는 제안 분포를 조정해 수용률을 최적화한다. 또한, 초매개변수 α와 가우시안 분산 σ²에 대한 하이퍼 사전도 포함시켜 전체 모델을 완전 베이지안 방식으로 학습한다.
실험 부분에서는 인공 데이터(클러스터 수와 레퍼런스 타입 수가 사전에 알려진 시뮬레이션)와 세 개의 실제 데이터셋(레코드 연결, 코어퍼런스, 신원 불확실성)을 사용한다. 비교 대상은 전통적인 K‑means, DBSCAN 같은 비감독 군집화와, 최근의 지도형 클러스터링 모델(예: 라벨 전파, 제약 기반 K‑means)이다. 평가 지표는 정밀도·재현율·F1 점수, 클러스터링 정확도, 그리고 비즈니스 관점에서 중요한 매칭 정확도 등을 포함한다. 결과는 제안 모델이 특히 레퍼런스 타입이 복잡하게 얽혀 있는 상황에서 다른 방법보다 높은 F1 점수와 낮은 오류율을 보였으며, 클러스터 수를 자동으로 조정하는 DP의 장점이 뚜렷하게 나타났다.
한계점으로는 가우시안 관측 모델이 실제 데이터의 비선형·다중모드 특성을 충분히 포착하지 못할 수 있다는 점, MCMC 수렴에 시간이 많이 소요될 수 있다는 점, 그리고 레퍼런스 타입이 실제로는 다중 레벨(예: 문화적 변형, 오탈자 등)로 존재할 경우 모델 확장이 필요하다는 점을 언급한다. 향후 연구에서는 비가우시안 관측 모델(예: 혼합 가우시안, 딥러닝 기반 임베딩)과 변분 추론(Variational Inference)으로 스케일업을 시도할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기