클러스터링 안정성 개요
초록
본 논문은 클러스터링 수 선택을 위해 “안정성”을 활용하는 방법을 고수준에서 정리한다. 최근 이론적 연구들을 비전문가가 이해하기 쉽도록 비공식적이면서도 핵심적인 내용으로 요약하고, 각 결과들의 관계와 실무적 함의를 논의한다.
상세 분석
클러스터링 안정성은 데이터 혹은 알고리즘에 작은 변동을 가했을 때 얻어지는 군집 결과가 얼마나 일관되는지를 측정한다. 변동 방식은 크게 두 가지로 나뉜다. 첫째는 데이터 변동으로, 부트스트랩, 서브샘플링, 노이즈 추가 등으로 원본 데이터를 재구성한다. 둘째는 알고리즘 변동으로, k‑means와 같은 비확정적 알고리즘의 초기값 무작위화, 파라미터 미세조정 등이 해당한다. 이러한 변동을 적용한 뒤, 두 군집 결과 사이의 거리(예: 조정 랜드스케일 지수, 변형된 Rand Index)를 계산해 평균 안정성을 구한다.
이론적 연구는 주로 두 축에서 진행된다. 하나는 표본 안정성(sample stability) 으로, 유한 표본에서 측정된 안정성이 모집단 수준의 안정성과 얼마나 일치하는지를 분석한다. 여기서 Ben‑David·Eldridge·Shalev‑Shwartz(2006)와 같은 연구는 충분히 큰 표본이면 안정성 추정량이 일관적임을 보였다. 또 다른 축은 극한 안정성(asymptotic stability) 으로, 표본 크기가 무한대로 갈 때 안정성 곡선이 진정한 군집 수 k에서 최고점을 찍는 조건을 탐구한다. Lange·Rinaldo·Wang(2004)은 데이터가 충분히 구분(separable)되고 클러스터 내 분산이 제한적일 때, k‑means의 안정성이 k에서 최대가 된다는 정리를 제시했다.
하지만 이러한 결과는 여러 가정에 의존한다. 고차원에서 잡음이 많거나 클러스터 간 거리 비율이 작으면, 안정성은 오히려 과소/과대 군집 수를 선호한다. 또한 거리 함수 선택에 따라 안정성 측정값이 크게 달라질 수 있다(예: 유클리드 vs. 맨해튼). 알고리즘적 변동을 이용한 안정성은 초기값에 민감한 k‑means에서 유용하지만, 계층적 군집화처럼 결정적 알고리즘에는 적용이 제한적이다.
핵심 인사이트는 다음과 같다. 첫째, 안정성은 “가장 좋은” 군집 수를 찾는 하나의 지표일 뿐, 단독으로 사용하면 오해를 초래할 수 있다. 둘째, 데이터의 구조적 가정(클러스터 구분도, 잡음 수준, 차원)과 선택된 거리·알고리즘에 따라 안정성 곡선의 형태가 크게 변한다. 셋째, 이론적 일관성 결과는 충분히 큰 표본과 적절한 변동 모델을 전제로 하므로, 실제 적용 시 표본 크기와 변동 설계에 신중을 기해야 한다. 마지막으로, 최근 연구는 안정성을 다른 검증 지표(실루엣, BIC 등)와 결합하거나, 다중 스케일 변동을 통해 보다 견고한 군집 수 선택 방법을 모색하고 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기