예측변수 기반 베이지안 비모수 클러스터링
초록
본 논문은 관측값의 군집을 예측변수와 연계시키기 위해, 기존의 Common Atoms Model(CAM)을 확장하여 그룹 멤버십을 잠재 변수로 모델링한다. 예측변수 공간을 피라미드 형태의 회귀 트리로 분할하고, 각 터미널 노드를 잠재 그룹으로 사용해 관측값이 유사한 예측변수를 가질 때 같은 그룹·클러스터에 속하도록 설계하였다. 제안 모델(CAPGM)의 사후 추론을 위한 블록 Gibbs 샘플러를 제시하고, 시뮬레이션 및 RAND Health and Retirement Study 데이터를 통해 성능을 검증하였다.
상세 분석
본 연구는 베이지안 비모수 클러스터링 분야에서 두 가지 중요한 한계를 동시에 극복하고자 한다. 첫째, 기존의 Dirichlet Process(DP) 기반 군집화는 관측값 간의 교환 가능성을 전제로 하여 예측변수와의 연관성을 무시한다. 이를 보완하기 위해 종속 DP, HDP, NDP, 그리고 최근 제안된 Common Atoms Model(CAM) 등이 도입되었지만, 이들 모두 사전에 정의된 그룹 구조에 의존한다는 공통된 제약을 가진다. 둘째, 예측변수를 활용한 군집화(PPMx, PSBP, EPA 등)는 고차원 변수 공간에서 변수 선택 및 거리 측정의 어려움으로 인해 실용성이 떨어진다.
논문은 이러한 문제점을 해결하기 위해 두 단계의 계층적 구조를 도입한다. 최상위 단계에서는 ‘피라미드 그룹 모델(PGM)’이라는 트리 기반 분할 방식을 사용한다. PGM은 전통적인 Bayesian CART와 유사하지만, 동일 깊이의 모든 노드가 동일한 분할 규칙을 공유한다는 점에서 차별화된다. 이 설계는 트리 탐색 공간을 크게 축소시켜 MCMC 혼합성을 크게 향상시킨다. 각 터미널 노드는 잠재 그룹 g 으로 정의되며, 관측값 i 의 예측변수 X_i 가 해당 노드에 할당될 확률은 트리 구조에 의해 결정된다.
그 다음 단계에서는 CAM을 적용하여 잠재 그룹 g 내에서 관측값 수준의 클러스터링을 수행한다. CAM은 모든 그룹이 동일한 원자 집합 {ϑ_h} 을 공유하면서, 그룹별 클러스터 확률 벡터 π_g 를 또 다른 DP(α)로부터 샘플링한다. 따라서 동일한 ‘분포 클러스터(DC)’에 속하는 그룹들은 동일한 π 벡터를 공유하고, 그 안에서 관측값은 원자 ϑ_h 에 할당되어 ‘관측 클러스터(OC)’를 형성한다. 이중 계층 구조(CAPGM)는 예측변수에 의해 그룹이 형성되고, 그룹 내에서 응답 변수에 기반한 세부 클러스터가 형성되는 메커니즘을 제공한다.
모델 추론은 무한 차원의 DP를 실용적으로 다루기 위해 트렁케이션을 적용한다. 구체적으로, DC 수 K 와 OC 수 H 에 대해 충분히 큰 상한을 설정하고, Stick‑Breaking 가중치 ρ_k, q_kh 를 베타 분포(1,α)·베타(1,β)로부터 샘플링한다. 하이퍼파라미터 α, β 는 감마 사전분포를 부여해 데이터에 의해 자동 조정된다. 블록 Gibbs 샘플러는 (1) 트리 구조 T 의 Metropolis‑Hastings 업데이트, (2) 그룹 할당 g_i 와 클러스터 할당 C_i, D_g 의 직접 샘플링, (3) 원자 ϑ_h 와 스틱‑브레이킹 가중치의 조건부 사후분포 업데이트 순으로 구성된다. 동일 깊이에서 동일 분할 규칙을 사용함으로써 트리 구조의 제안 단계에서 높은 수용률을 달성하고, 전체 사후 샘플링 효율을 크게 향상시킨다.
시뮬레이션에서는 고차원(>20) 예측변수와 복잡한 군집 구조를 가진 데이터를 생성해, 기존 PPMx, PSBP, EPA와 비교하였다. CAPGM은 군집 정확도(Adjusted Rand Index)와 예측 오차(RMSE) 모두에서 우수한 성능을 보였으며, 특히 불필요한 변수에 대한 자동 억제 효과가 두드러졌다. 실제 데이터 적용에서는 RAND Health and Retirement Study의 입원 일수(응답)와 다양한 인구통계·건강 변수(예측변수)를 사용하였다. CAPGM은 연령·만성질환·소득 수준 등과 연관된 잠재 그룹을 발견하고, 각 그룹 내에서 입원 일수의 이질성을 효과적으로 포착하였다. 이는 정책 입안자가 특정 위험군을 식별하고 맞춤형 개입을 설계하는 데 실질적인 통찰을 제공한다.
전반적으로 본 논문은 (1) 예측변수 기반 그룹 형성을 비모수적으로 모델링하고, (2) 동일 깊이 분할 규칙을 통한 효율적인 트리 탐색, (3) CAM과의 결합으로 그룹·관측 수준의 이중 클러스터링을 구현한다는 세 가지 핵심 기여를 제시한다. 제한점으로는 트리 깊이 D 와 트렁케이션 파라미터 K, H 의 사전 선택이 모델 복잡도와 계산 비용에 영향을 미친다는 점이며, 향후 자동화된 모델 선택 기법과 확장된 변수 선택 메커니즘이 연구될 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기