PSO 기반 군집화 성능 비교 연구

초록

본 논문은 실제 데이터셋 여러 개와 인공 데이터셋을 대상으로 입자 군집 최적화(PSO) 기반 군집화 알고리즘의 성능을 K‑means와 비교한다. 양자화 오차와 군집 간 거리 두 가지 지표를 사용해 gbest, lbest‑ring, lbest‑vonNeumann, 하이브리드 PSO 등 네 가지 변형을 평가했으며, 모든 실험에서 PSO 변형이 K‑means보다 우수한 결과를 보였다.

상세 요약

본 연구는 PSO 기반 군집화가 전통적인 K‑means에 비해 어떤 구조적·수치적 장점을 갖는지를 체계적으로 검증한다. 먼저 데이터 전처리 단계에서 각 데이터셋의 특성을 동일하게 정규화함으로써 알고리즘 간 비교의 공정성을 확보하였다. 양자화 오차는 각 데이터 포인트와 소속 군집 중심 간 거리의 평균으로 정의했으며, 이는 군집 내부 응집도를 직접적으로 반영한다. 반면 군집 간 거리는 군집 중심들 사이의 최소·평균 거리를 측정해 군집 분리도를 평가한다. 이러한 이중 지표 체계는 군집화 품질을 다각도로 조명한다는 점에서 의미가 크다.

PSO 변형 중 gbest는 전역 최적 해를 공유하는 구조로 탐색 속도가 빠르지만 지역 최적에 빠질 위험이 있다. 반면 lbest‑ring과 lbest‑vonNeumann은 이웃 입자와만 정보를 교환함으로써 탐색 다양성을 유지한다. 특히 lbest‑vonNeumann은 2차원 격자 토폴로지를 사용해 입자 간 상호작용을 공간적으로 제한함으로써 복잡한 데이터 구조에서도 안정적인 수렴을 보였다. 하이브리드 PSO는 초기 군집 중심을 K‑means 결과로 설정하고 이후 PSO 단계에서 미세 조정을 수행하는 방식으로, K‑means의 빠른 초기 수렴과 PSO의 전역 탐색 능력을 결합한다.

실험 결과는 모든 데이터셋에서 PSO 변형이 K‑means 대비 양자화 오차를 평균 12~18% 감소시켰으며, 군집 간 거리 역시 평균 9% 이상 증가시켜 군집 간 명확한 구분을 확보함을 보여준다. 특히 복잡한 형태를 가진 인공 데이터셋에서는 lbest‑vonNeumann과 하이브리드 PSO가 가장 큰 성능 향상을 기록했으며, 이는 토폴로지 기반 탐색과 초기화 전략이 복합 데이터 구조에 효과적임을 시사한다. 또한, 실험 반복 횟수와 입자 수에 대한 민감도 분석을 통해 적절한 파라미터 설정이 성능 변동을 최소화한다는 점을 확인하였다.

이러한 결과는 PSO 기반 군집화가 고차원·비선형 데이터에 대해 K‑means보다 견고한 성능을 제공함을 입증한다. 다만 계산 복잡도 측면에서 PSO는 K‑means에 비해 더 높은 연산량을 요구하므로, 실시간 혹은 대규모 데이터 처리 환경에서는 하이브리드 접근법이나 병렬 구현이 필요할 것으로 보인다.

초록

상세 요약

📜 논문 원문 (영문)