범주형 데이터 혼합 모델에서 클러스터 수 자동 결정 방법

** 본 논문은 범주형 데이터에 대한 클러스터링 문제를 다루며, 특히 데이터가 유한 개의 다항분포 혼합 모델에서 생성된다고 가정한다. 기존의 범주형 클러스터링 방법은 거리 기반 유사도 측정이나 사전 정의된 군집 수를 전제로 하는 경우가 많아, 군집 수 결정이 별도의 단계로 남아 있었다. 저자들은 이러한 한계를 극복하고자, 모델 파라미터 추정과 군집 수 선택을 동시에 수행하는 새로운 EM‑MML 알고리즘을 제안한다. ### 1. 배경 및 문제 정의 - **범주형 데이터 클러스터링**: 연속형 데이터와 달리 범주형 변수는 직접적인 거리 계산이 어려워, 혼합 모델 접근이 선호된다. 여기서는 각 변수 Y_l이 C_l개의 범주를 가지는 다항분포를 따르는 것으로 모델링한다. - **혼합 모델**: K개의 다항분포가 혼합 비율 α_k와 함께 결합된 형태이며, 전체 파라미터 집합 Θ는 {α_k, θ_k}이다. 관측 데이터는 완전 데이터가 아니며, 각 관측이 어느 군집에서 왔는지에 대한 잠재 변수 Z가 존재한다. - **전통적 모델 선택**: BIC, AIC, ICL 등 정보 기준을 사용해 사전에 여러 K값에 대해 EM을 실행하고, 최적 K를 선택한다. 이는 계산 비용이 크고, 모델 간 비교가 불안정할 수 있다. ### 2. 최소 메시지 길이(MML) 기반 접근 - **MML 개념**: 데이터와 모델 파라미터를 동시에 압축하는 코드 길이를 최소화한다. 전체 메시지 길이는 l(y,Θ)=−log p(Θ)−log p(y|Θ)+½ log|I(Θ)|+C₂(1−log 12) 로 정의되며, 여기서 I(Θ) 는 기대 피셔 정보 행렬이다. - **근사**: 기대 피셔 정보를 완전 데이터 버전 I_c(Θ) 로 대체하고, Jeffreys 사전을 적용해 α_k에 대한 로그 사전 항을 얻는다. 결과적으로 MML 식은 로그우도와 두 개의 α_k 관련 패널티 항으로 구성된다. ### 3. EM‑MML 알고리즘 설계 - **E‑step**: 기존 EM과 동일하게, 현재 파라미터 Θ^(t) 를 이용해 각 관측 i가 군집 k에 속할 posterior 확률 𝑧̄_{ik}^{(t)} 를 계산한다. 다항분포 형태에 맞게 식 (7) 로 표현된다. - **M‑step**: - **α_k 업데이트**: α_k^{(t+1)} = max(0, Σ_i 𝑧̄_{ik}^{(t)} − (C−K+1)/2K) / Σ_j max(0, Σ_i 𝑧̄_{ij}^{(t)} − (C−K+1)/2K). 여기서 C는 전체 파라미터 수이며, 패널티 항 때문에 작은 비율을 가진 군집은 0으로 수렴한다. - **θ_k 업데이트**: α_k^{(t+1)} > 0 인 군집에 대해서만 다항분포 파라미터를 기존 EM 방식(관측 카운트의 가중 평균)으로 추정한다. - **군집 수 자동 조정**: α_k가 0이 되면 해당 군집은 모델에서 제거되며, k_nz (비제로 군집 수)가 자동으로 감소한다. 따라서 사전에 K를 지정할 필요가 없으며, 하나의 EM 루프 안에서 모델 선택이 이루어진다. ### 4. 실험 설계 및 결과 - **합성 데이터**: 다양한 K_true (2~6), 변수 차원 L (5~20), 카테고리 수 C_l (2~4)를 조합해 1000개 데이터셋을 생성. EM‑MML은 BIC·AIC 대비 과소·과대 추정 비율이 현저히 낮았으며, 평균 정확도(Adjusted Rand Index)도 우수했다. 또한, 전체 실행 시간은 BIC 기반 다중 EM 대비 30~40% 정도 감소하였다. - **실 데이터 1 (ESS 1)**: 유럽 사회조사에서 연령, 교육 수준, 직업 등 8개의 범주형 변수(총 3,500명) 사용. EM‑MML은 4개의 군집을 선택했으며, 각 군집은 사회적·경제적 특성에 따라 명확히 구분되는 패턴을 보였다. BIC는 7개의 군집을 제시했지만, 일부 군집이 매우 작은 비율(≤2%)을 차지해 해석이 어려웠다. - **실 데이터 2 (ESS 2)**: 다른 파라미터 설문(문화적 가치관)에서 5개의 군집을 제시했으며, 역시 BIC 대비 파라미터 수가 절반 수준이면서도 동일하거나 더 높은 분류 정확도를 기록했다. ### 5. 논의 및 한계 - **장점**: 모델 선택과 파라미터 추정을 하나의 EM 루프에 통합함으로써 계산 효율성을 크게 향상시켰다. α_k에 대한 스파싱 메커니즘은 과도한 군집 수를 자연스럽게 억제한다. 결과적으로 얻어지는 군집은 해석 가능성이 높으며, 실무 적용에 유리하다. - **제한점**: MML 근사는 완전 데이터 피셔 정보를 사용함으로써 이론적 최적성을 보장하지 않는다. 고차원(수백 개 변수) 범주형 데이터에서는 α_k 업데이트 시 수치적 불안정성이 발생할 수 있다. 또한, Jeffreys 사전 선택이 결과에 미치는 영향에 대한 민감도 분석이 부족하다. - **향후 연구**: (1) 고차원 데이터에 대한 정규화 기법 도입, (2) 다른 사전(예: 비대칭 베타)와의 비교, (3) 온라인/스트리밍 데이터에 대한 확장, (4) 혼합 모델의 구조(예: 계층적 혼합)와 결합한 MML‑EM 개발이 제안된다. ### 6. 결론 본 논문은 범주형 데이터 클러스터링에서 군집 수를 자동으로 결정하는 EM‑MML 알고리즘을 제시하였다. 최소 메시지 길이 기준을 EM 프레임워크에 직접 통합함으로써, 기존 정보 기준 기반 방법이 겪는 계산 비용과 모델 과대추정 문제를 효과적으로 해결한다. 실험 결과는 제안 방법이 정확도, 효율성, 해석 가능성 측면에서 기존 방법을 능가함을 보여준다. 이는 사회과학, 마케팅, 의료 등 범주형 변수가 다수인 분야에서 실용적인 클러스터링 도구로 활용될 가능성을 시사한다. **

범주형 데이터 혼합 모델에서 클러스터 수 자동 결정 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기