확장 가능한 밀도 기반 분산 클러스터링

초록

본 논문은 대규모 이질 데이터가 여러 로컬 사이트에 분산되어 있을 때, 전송 비용과 클러스터링 품질 사이의 사용자 정의 트레이드오프를 제공하는 밀도 기반 분산 클러스터링 알고리즘을 제안한다. 각 로컬 사이트에서는 객체들을 품질 기준에 따라 정렬하고, 가장 적합한 대표 객체들을 선택해 전송한다. 서버에서는 선택된 대표들을 기존 DBSCAN을 약간 개선한 방식으로 클러스터링한다. 실험 결과, 제한된 전송량에서도 높은 클러스터링 정확도를 유지하면서 확장성을 확보함을 보인다.

상세 분석

이 논문은 현대 빅데이터 환경에서 데이터가 물리적으로 분산된 상황을 전제로, 전통적인 중앙집중식 클러스터링의 비효율성을 극복하고자 한다. 핵심 아이디어는 “대표 객체 선정”과 “전송량 조절”이라는 두 축을 통해 전역 클러스터링의 품질을 보존하면서 네트워크 부하를 최소화하는 것이다. 로컬 단계에서는 각 사이트의 모든 데이터 포인트에 대해 밀도 기반 품질 지표를 계산한다. 구체적으로, 객체 i에 대해 ε-이웃 내에 존재하는 포인트 수(핵심점 여부)와 해당 포인트가 다른 클러스터에 속할 가능성(경계점 여부)을 결합한 스코어를 정의한다. 이 스코어는 높은 밀도와 클러스터 중심성, 그리고 주변 군집과의 구분도를 동시에 반영한다. 이렇게 산출된 스코어에 따라 객체들을 내림차순 정렬하고, 사용자가 지정한 전송 비율(예: 상위 5 % 혹은 고정 개수)만큼을 대표 집합 R로 추출한다.

대표 집합 전송 후, 서버에서는 기존 DBSCAN을 보완한 “강화된 밀도 기반 클러스터링”을 수행한다. 강화된 알고리즘은 두 가지 주요 변형을 포함한다. 첫째, 전송된 대표들만으로도 충분히 밀도 연결성을 판단할 수 있도록 ε와 최소 이웃 수(minPts)를 동적으로 조정한다. 둘째, 로컬 사이트에서 누락된 미세 구조를 복원하기 위해, 대표들 간의 거리 그래프에서 커넥티비티가 약한 영역을 탐지하고, 필요 시 로컬 사이트에 추가적인 보조 포인트를 요청하는 피드백 메커니즘을 도입한다. 이러한 설계는 전송량을 최소화하면서도 전역 클러스터링의 정확도를 크게 저하시키지 않는다.

알고리즘 복잡도 측면에서 로컬 단계는 각 사이트마다 O(N_i log N_i) 수준(정렬 비용)이며, 전송량은 사용자가 정의한 대표 비율에 비례한다. 서버 측 클러스터링은 전송된 대표 집합 R의 크기 |R|에 대해 O(|R| log |R|)이며, 전체 시스템은 로컬 연산과 전송이 병렬화될 수 있기 때문에 거의 선형 확장성을 보인다.

실험에서는 합성 데이터와 실제 대규모 지리적/소셜 데이터셋을 사용해 전송 비율(1 %~~20 %)에 따른 클러스터링 정밀도(F‑measure, NMI)와 전송 비용을 비교하였다. 결과는 전송 비율이 5 % 이하일 때도 기존 중앙집중식 DBSCAN 대비 2~~3 % 수준의 성능 저하만 보이며, 전송량은 전체 데이터의 1/20 이하로 감소함을 보여준다. 또한, 기존 분산 DBSCAN(예: DDBC, MR‑DBSCAN)과 비교했을 때, 대표 선정 단계에서의 품질 기반 정렬이 클러스터 경계 정확도를 크게 향상시킨다.

한계점으로는 대표 선정 기준이 데이터 분포에 민감하다는 점과, 매우 불균형한 데이터 분포(예: 한 사이트에 극단적으로 많은 포인트가 몰린 경우)에서 전송 비율을 고정하면 품질 저하가 발생할 수 있다. 이를 보완하기 위해 향후 연구에서는 적응형 전송 비율 제어와 다중 스케일 대표 선정 기법을 탐색할 예정이다.

전반적으로 이 논문은 “품질 기반 대표 선정 + 동적 밀도 파라미터 조정”이라는 두 축을 결합함으로써, 대규모 분산 환경에서 실용적인 밀도 기반 클러스터링을 구현할 수 있음을 입증한다.