꽃가루 수분 알고리즘과 K‑평균을 결합한 하이브리드 클러스터링

초록

본 논문은 전역 탐색 능력을 갖는 꽃가루 수분 알고리즘(FPA)을 K‑평균(K‑Means)과 결합하여 초기 군집 중심을 효과적으로 설정하고, 지역 최적에 빠지는 문제를 완화한 하이브리드 클러스터링 기법(FPAKM)을 제안한다. 8개의 공개 데이터셋에 대해 기존 K‑Means와 순수 FPA와 비교 실험을 수행했으며, 전반적으로 FPAKM이 군집 품질(실루엣 점수 및 SSE)과 수렴 속도에서 우수함을 확인하였다.

상세 요약

K‑Means는 중심 기반 군집화 알고리즘 중 가장 널리 사용되지만, 초기 중심 선택에 크게 의존한다는 치명적 약점을 가진다. 무작위 초기화는 종종 지역 최적에 머무르게 하여 최종 SSE(Sum of Squared Errors)를 크게 증가시킨다. 반면, 꽃가루 수분 알고리즘(FPA)은 자연계 꽃가루 전파 현상을 모방한 메타휴리스틱으로, 전역 탐색 단계(레버리시즘)와 지역 탐색 단계(자기 수분)를 교대로 수행한다. 전역 단계에서는 Lévy 비행을 이용해 넓은 탐색 공간을 빠르게 샘플링하고, 지역 단계에서는 현재 최적 해 주변을 정밀하게 탐색한다. 이러한 특성은 군집 중심을 전역적으로 탐색하면서도 지역적으로 미세 조정할 수 있게 해준다.

논문에서 제안한 FPAKM은 두 단계로 구성된다. 첫 번째 단계에서는 FPA를 이용해 후보 중심 집합을 생성한다. 여기서 각 개체는 K개의 중심 좌표를 포함하는 벡터이며, 적합도는 해당 중심을 사용해 K‑Means 한 번 실행 후 얻은 SSE로 평가한다. FPA는 여러 세대에 걸쳐 전역·지역 탐색을 반복하며, 최종적으로 가장 낮은 SSE를 보인 개체를 초기 중심으로 선택한다. 두 번째 단계에서는 선택된 초기 중심을 기반으로 전통적인 K‑Means를 수행해 군집을 정제한다. 이 과정에서 K‑Means는 빠른 수렴 특성을 활용해 최종 군집을 확정한다.

실험에서는 8개의 서로 다른 특성을 가진 데이터셋(크기, 차원, 군집 수)을 사용했으며, 각 알고리즘을 30회 반복 실행해 평균 SSE와 실루엣 점수를 비교했다. 결과는 FPAKM이 대부분의 데이터셋에서 K‑Means와 순수 FPA보다 낮은 SSE와 높은 실루엣 점수를 기록했음을 보여준다. 특히 고차원·불균형 데이터에서 FPAKM의 우수성이 두드러졌다. 그러나 논문은 알고리즘의 시간 복잡도 분석이 부족하고, 파라미터(예: FPA의 개체 수, Lévy 비행 파라미터, K‑Means 반복 제한) 선택 근거가 충분히 제시되지 않았다. 또한, 통계적 유의성 검증(예: t‑검정, Wilcoxon)이나 다른 메타휴리스틱(PSO, GA)과의 비교가 없어서 결과의 일반화 가능성을 판단하기 어렵다. 향후 연구에서는 파라미터 자동 튜닝, 병렬 구현, 그리고 다양한 메타휴리스틱과의 포괄적 벤치마크가 필요하다.

초록

상세 요약

📜 논문 원문 (영문)