선형 군중 가중 모델 기반 군집화

초록

본 논문은 선형 t-군중 가중 모델(CWM)을 기반으로, 무작위 공변량을 포함하는 12가지 혼합 모델 계열을 제안한다. 선형 Gaussian CWM을 특수 경우로 포함하며, EM 알고리즘과 계층적 초기값 설정을 통해 최대우도 추정을 수행한다. 모델 선택은 BIC와 ICL을 사용하고, 실제 데이터와 시뮬레이션을 통해 성능을 검증한다.

상세 분석

이 연구는 기존의 선형 Gaussian 군중 가중 모델(CWM)이 갖는 정규성 가정의 취약점을 보완하기 위해, 보다 강건한 t-분포 기반 CWM을 확장하였다. 핵심 아이디어는 공변량 X와 반응변수 Y를 동시에 모델링하면서, 각 군집(k)마다 X와 Y의 조건부 분포를 독립적인 t-분포 혹은 정규분포로 지정할 수 있는 12가지 조합을 정의하는 것이다. 구체적으로, 각 군집에 대해 (i) X의 분포 형태(정규 vs t), (ii) Y|X의 회귀 형태(선형 정규 vs 선형 t), (iii) 공분산 구조(공통 vs 군집별) 등을 선택함으로써 모델 복잡도를 조절한다.

EM 알고리즘은 두 단계로 구성된다. E‑step에서는 현재 파라미터 하에 군집 할당 확률과 t‑분포의 스케일 변수(잠재 변수)들의 기대값을 계산한다. M‑step에서는 이 기대값을 이용해 회귀계수, 공분산 행렬, 자유도 파라미터 등을 업데이트한다. 특히 자유도 ν는 고정값이 아닌 데이터에 맞게 추정하도록 설계되어, 이상치에 대한 민감도를 자동으로 조절한다.

모델 선택은 BIC와 ICL을 동시에 적용한다. BIC는 모델 복잡도와 적합도를 균형 있게 평가하지만, 군집 구조의 명확성을 반영하지 못한다는 한계가 있다. 이를 보완하기 위해 ICL(Integrated Completed Likelihood)을 도입하여, 군집 할당의 불확실성을 벌점으로 반영한다. 논문에서는 두 기준이 실제 데이터와 시뮬레이션에서 어떻게 다른 선택을 하는지 비교 분석한다.

또한, EM 초기값 설정에 대한 새로운 계층적 랜덤 초기화 방법을 제안한다. 먼저 전체 데이터를 무작위로 K‑means 클러스터링한 뒤, 각 클러스터에 대해 선형 회귀와 공분산 추정을 수행한다. 이렇게 얻은 파라미터를 초기값으로 사용하면, 전통적인 무작위 초기화에 비해 수렴 속도가 빠르고 로컬 최적해에 빠질 위험이 크게 감소한다.

실제 데이터 사례에서는 (1) 붓꽃 데이터, (2) 체중‑키 데이터, (3) 금융 위험 데이터 등 다양한 분야의 연속형 변수와 회귀 관계를 가진 데이터셋을 분석한다. 결과는 t‑기반 모델이 이상치와 비정규성을 포함한 경우에 Gaussian 기반 모델보다 높은 군집 정확도와 로그우도 값을 제공함을 보여준다.

시뮬레이션 연구에서는 데이터 생성 과정에서 자유도와 군집 간 공분산 차이를 조절하여, BIC와 ICL 각각이 어느 상황에서 올바른 모델을 선택하는지를 체계적으로 평가한다. 전반적으로 ICL이 군집 구조를 더 명확히 구분하는 경우에 우수한 선택률을 보였으며, BIC는 모델 적합도 측면에서 더 보수적인 선택을 하는 경향을 나타냈다.

이러한 기여는 모델 기반 군집화 분야에서 정규성 가정에 얽매이지 않고, 데이터의 실제 분포 특성을 반영할 수 있는 유연한 프레임워크를 제공한다는 점에서 의미가 크다. 특히, 선형 회귀와 군집화를 동시에 수행해야 하는 응용 분야(예: 생물학적 표본 분류, 경제 데이터 세분화)에서 실용적인 도구로 활용될 수 있다.