데이터 마이닝을 위한 하이브리드 군집 알고리즘

초록

본 논문은 K‑means와 K‑harmonic mean(KHM)을 결합한 하이브리드 군집 알고리즘을 제안한다. 제안 알고리즘은 기존 K‑means와 KHM의 초기값 민감도와 수렴 속도 문제를 보완하면서도 높은 정확도를 유지한다. 다섯 개의 공개 데이터셋에 대해 실험을 수행했으며, 결과는 기존 두 알고리즘에 비해 군집 품질과 실행 시간이 모두 개선되었음을 보여준다.

상세 분석

본 연구는 군집화 분야에서 가장 널리 사용되는 K‑means와 K‑harmonic mean(KHM)의 장단점을 체계적으로 분석하고, 이를 통합한 새로운 하이브리드 프레임워크를 설계하였다. K‑means는 중심점(centroid) 업데이트가 간단하고 계산량이 적어 대규모 데이터에 적합하지만, 초기 중심점 선택에 따라 지역 최적해에 빠질 위험이 크다. 반면 KHM은 모든 데이터 포인트를 중심점 후보로 고려하는 가중 평균 방식을 사용해 초기값에 대한 민감도가 낮고, 복잡한 형태의 군집에도 비교적 안정적인 수렴을 보인다. 그러나 KHM은 거리 계산이 전 데이터에 대해 반복되므로 계산 비용이 크게 증가한다는 단점이 있다.

제안된 하이브리드 알고리즘은 먼저 K‑means를 이용해 빠르게 초기 중심점을 추정한 뒤, KHM의 조화 평균 방식을 적용해 중심점을 재조정한다. 구체적으로는 K‑means 단계에서 얻어진 중심점들을 KHM의 초기값으로 사용하고, 이후 KHM 단계에서 각 데이터 포인트와 모든 중심점 사이의 거리 역수 가중치를 계산해 새로운 중심점을 도출한다. 이 과정은 중심점이 크게 변동하지 않을 때까지 반복한다. 이렇게 하면 K‑means의 빠른 수렴 속도와 KHM의 초기값 강인성을 동시에 활용할 수 있다.

실험 설계는 다섯 개의 서로 다른 특성을 가진 공개 데이터셋(예: Iris, Wine, Glass, Breast Cancer Wisconsin, 그리고 합성 데이터)으로 구성하였다. 각 데이터셋에 대해 군집 수 k를 사전에 지정하고, 동일한 초기 조건 하에 세 알고리즘(K‑means, KHM, 하이브리드)을 30회 반복 실행했다. 평가 지표는 군집 내 평균 제곱 오차(SSE), 실루엣 점수, 그리고 실행 시간으로 설정하였다. 결과는 하이브리드 알고리즘이 SSE와 실루엣 점수 모두에서 기존 두 알고리즘보다 평균 8~~15% 정도 개선되었으며, 실행 시간은 KHM에 비해 30~~45% 단축된 것을 보여준다.

또한, 민감도 분석을 통해 초기 중심점 선택이 K‑means와 KHM 각각에 미치는 영향을 정량화하였다. K‑means는 초기값에 따라 최종 SSE가 20% 이상 차이날 수 있었지만, 하이브리드 알고리즘은 초기값 변동에 따른 성능 편차가 5% 이하로 크게 감소하였다. 이는 KHM 단계가 초기값에 대한 보정 역할을 효과적으로 수행함을 의미한다.

한계점으로는 KHM 단계에서 전체 거리 행렬을 계산해야 하는 점 때문에 매우 고차원 데이터나 수백만 건 이상의 대규모 데이터셋에서는 메모리 부담이 발생할 수 있다. 이를 해결하기 위해 차원 축소 전처리(PCA 등)나 거리 근사 기법(예: KD‑tree, locality‑sensitive hashing)과의 결합이 필요하다. 또한, 군집 수 k를 사전에 지정해야 하는 전제는 비지도 학습 상황에서 자동 군집 수 추정 기법과의 연계가 요구된다.

종합적으로, 본 논문은 K‑means와 KHM의 상보적 특성을 활용한 하이브리드 접근법이 군집 품질과 연산 효율성 모두에서 실질적인 이점을 제공함을 실험적으로 입증하였다. 향후 연구에서는 하이브리드 구조를 다중 단계로 확장하거나, 다른 거리 기반 군집 알고리즘(예: DBSCAN, Spectral Clustering)과의 혼합을 탐색함으로써 더욱 일반화된 군집 프레임워크를 구축할 수 있을 것으로 기대된다.