실제 데이터셋을 위한 정규형 PSO 기반 k‑평균 클러스터링

초록

본 논문은 입자군집 최적화(PSO)의 정규형 변형을 k‑평균과 결합한 하이브리드 클러스터링 알고리즘을 제안한다. 제안 알고리즘과 기존 k‑평균, 단순 PSO‑k‑평균, DBSCAN, 계층적 군집화의 성능을 공기오염, 도매고객, 와인, 차량 네 개 실데이터에 대해 내부 유효성 지표(클러스터 내·간 거리)로 비교·평가한다. 실험 결과 정규형 PSO‑k‑평균이 대부분의 경우 더 높은 군집 응집도와 분리도를 보이며, 실용적인 데이터 분석에 유리함을 확인한다.

상세 분석

이 연구는 전통적인 k‑평균 알고리즘이 초기 중심점 선택에 민감하고 지역 최적에 머무를 위험이 있다는 점을 보완하기 위해, 입자군집 최적화(Particle Swarm Optimization, PSO)의 정규형(Canonical) 변형을 도입한다. 정규형 PSO는 속도와 위치 업데이트 식에 관성 가중치와 학습 계수를 동적으로 조정하는 메커니즘을 포함해, 탐색 단계에서의 과도한 발산을 억제하고 수렴 속도를 가속화한다. 논문은 먼저 기본 PSO 기반 k‑평균 흐름을 설명하고, 정규형 PSO가 어떻게 초기 군집 중심을 전역 탐색으로 최적화한 뒤, k‑평균의 지역 미세조정을 수행하는지를 단계별로 제시한다.

알고리즘 구현에서는 입자 집단 크기, 최대 반복 횟수, 관성 가중치 감소 스케줄 등 주요 파라미터를 실험적으로 튜닝했으며, 동일한 파라미터 설정을 단순 PSO‑k‑평균과 비교함으로써 정규형 변형의 효과를 객관적으로 검증한다. 평가 지표로는 Dunn Index, Davies‑Bouldin Index, Silhouette Coefficient 등 클러스터 내부 응집도와 클러스터 간 분리도를 동시에 반영하는 다중 내부 지표를 사용한다. 이러한 지표들은 각 알고리즘이 생성한 군집의 품질을 정량적으로 비교할 수 있게 해준다.

실험 데이터는 공기오염(다변량 시계열), 도매고객(거래량 기반), 와인(화학 성분), 차량(연비·배기량 등) 네 개의 공개 데이터셋으로, 각각 차원 수와 데이터 규모가 상이해 알고리즘의 일반화 능력을 시험한다. 결과는 정규형 PSO‑k‑평균이 대부분의 경우 Dunn Index를 크게 높이고 Davies‑Bouldin 값을 낮추어, 기존 k‑평균보다 더 뚜렷하고 조밀한 군집을 형성함을 보여준다. 특히 고차원 데이터인 와인과 차량 데이터에서 정규형 PSO‑k‑평균은 차원 저주 현상을 완화하고, 초기 중심점에 대한 의존성을 크게 감소시킨다.

한편 DBSCAN과 계층적 군집화는 비구형 군집이나 노이즈가 많은 데이터에 강점을 보이지만, 내부 지표 기준에서는 정규형 PSO‑k‑평균에 비해 일관된 성능을 내지 못한다. 이는 밀도 기반 방법이 파라미터(ε, 최소 포인트 수) 설정에 크게 좌우되며, 실험에 사용된 데이터 특성에 최적화되지 않았기 때문이다.

결론적으로, 정규형 PSO를 k‑평균에 통합한 하이브리드 접근법은 초기화 문제와 지역 최적 함정을 동시에 해결하면서, 다양한 실제 데이터에 대해 높은 군집 품질을 유지한다는 점에서 실무적 가치가 크다. 다만, 입자 수와 반복 횟수에 따른 계산 비용이 증가하는 점은 향후 가벼운 구현을 위한 알고리즘 경량화 연구가 필요함을 시사한다.