k 평균을 위한 새로운 휴리스틱 병합 분할과 k l 평균
초록
이 논문은 k‑means 군집화에서 발생하는 빈 클러스터와 단일점 클러스터 현상을 활용하여 알고리즘을 개선하고, 두 클러스터를 병합‑분할하는 새로운 휴리스틱을 제안한다. 또한 데이터를 l개의 가장 가까운 중심에 할당하는 (k,l)‑means 목표함수를 정의하고, 이를 k‑means로 변환하거나 점진적으로 완화하는 방법을 제시한다. 실험을 통해 제안 기법이 기존 Hartigan 휴리스틱보다 우수함을 입증한다.
상세 분석
본 논문은 k‑means 최적화가 NP‑hard임을 전제로, 기존의 두 주요 로컬 탐색 기법인 Lloyd’s 배치 이동과 Hartigan’s 단일점 이동을 확장한다. 첫 번째 확장은 Lloyd’s 알고리즘 실행 중 빈 클러스터가 발생할 때 이를 “빈 클러스터 예외”(Empty‑Cluster Exception, ECE)라 정의하고, 빈 클러스터를 새로운 시드로 재배치함으로써 부분적인 재시드를 수행한다. 이 과정은 클러스터 수 k가 크거나 차원 d가 높을수록, 그리고 다중 재시작(m‑start) 환경에서 빈 클러스터가 빈번히 발생한다는 실험적 관찰에 기반한다. 빈 클러스터를 무시하면 알고리즘이 지역 최소점에 머무를 위험이 있지만, 재시드 전략을 도입하면 비용 함수가 크게 감소하는 경우가 많다. 논문은 Iris 데이터셋을 1백만 번 재시작하여 ECE 발생 빈도를 정량화하고, 재시드가 적용된 확장 Lloyd’s가 빈 클러스터 없이 실행된 경우보다 평균 비용이 낮음을 보여준다.
두 번째 확장은 Hartigan’s 단일점 이동에서 “단일점 클러스터 예외”(Single‑Point Cluster Exception, SPCE)를 다룬다. SPCE는 클러스터가 하나의 데이터 포인트만을 포함할 때 발생하며, 이 경우 해당 클러스터의 분산이 0이므로 기존 이동 규칙으로는 비용 감소가 불가능하다. 저자는 이러한 상황에서 해당 단일점을 다른 클러스터와 병합하고, 병합된 클러스터를 다시 두 개의 새로운 중심으로 분할하는 “병합‑분할”(Merge‑and‑Split) 연산을 제안한다. 이 연산은 비용 감소가 보장될 때만 수행되며, Hartigan’s 알고리즘이 수렴한 후에도 추가적인 지역 개선을 가능하게 한다. 실험 결과, Merge‑and‑Split을 적용한 후 Hartigan’s가 도달한 비용보다 평균 2~5% 정도 낮은 비용을 얻었다.
마지막으로 논문은 (k,l)‑means라는 일반화된 목표함수를 도입한다. 기존 k‑means가 각 점을 가장 가까운 하나의 중심에 할당하는 반면, (k,l)‑means는 각 점을 l개의 가장 가까운 중심에 동시에 할당하고, 그 거리들의 합을 최소화한다. l을 1에서 k까지 변화시키면 비용 지형이 점차 부드러워져 지역 최소점에 빠질 위험이 감소한다. 저자는 (k,l)‑means 해를 직접 k‑means로 변환하는 “직접 변환” 방법과, l을 단계적으로 감소시키며 최적화를 진행하는 “점진적 완화” 방법을 제시한다. 두 방법 모두 초기화 민감도를 낮추고, 최종 k‑means 해가 기존 방법보다 더 낮은 비용을 갖도록 만든다. 특히 l=2에서 시작해 l을 1로 감소시키는 과정은 기존 Lloyd’s 혹은 Hartigan’s가 도달하지 못하는 더 좋은 지역 최소점을 탐색하는 데 효과적이었다.
전체적으로 논문은 (1) 빈 클러스터와 단일점 클러스터를 단순 오류가 아니라 활용 가능한 재시드 기회로 전환, (2) 병합‑분할 연산을 통해 Hartigan’s의 수렴 후에도 추가 개선 가능, (3) (k,l)‑means라는 새로운 목표함수를 통해 초기화와 지역 최소점 문제를 완화한다는 세 가지 핵심 기여를 제시한다. 실험은 Iris, synthetic high‑dimensional 데이터, 그리고 실세계 이미지 피처 데이터셋을 사용해 제안 기법이 기존 최첨단 방법보다 일관되게 낮은 비용을 달성함을 입증한다. 또한 알고리즘 복잡도 분석을 통해 제안 기법이 실용적인 시간 안에 실행될 수 있음을 보인다. 이러한 결과는 k‑means 기반 군집화가 요구되는 다양한 분야—예를 들어 이미지 압축, 텍스트 토픽 모델링, 생물학적 데이터 분석—에서 보다 견고하고 효율적인 솔루션을 제공할 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기