DPCLUS 리딩 트리를 활용한 효율적인 계층 군집화

DPCLUS 리딩 트리를 활용한 효율적인 계층 군집화

초록

본 논문은 밀도 피크 기반 군집화 알고리즘 DPCLUS에서 각 객체가 가장 높은 밀도를 가진 이웃을 가리키는 배열을 ‘리딩 트리(Leading Tree, LT)’ 형태로 변환한다. LT는 부모‑자식 관계가 클러스터 할당을 직접 표현하도록 설계돼, 중심 객체를 끊어내는 단순 연산만으로 비중심 객체의 클러스터 ID를 빠르게 결정한다. 또한 자식들을 γ값(밀도·거리 곱) 기준 내림차순으로 정렬함으로써 서브트리의 루트 분리 작업을 가속화한다. 실험 결과, 기존 DPCLUS 대비 할당 단계의 실행 시간이 크게 감소했으며, 트리 구조를 통해 계층적 군집화와 중심 후보 탐색이 직관적으로 가능함을 보였다.

상세 분석

DPCLUS(밀도 피크 탐색 기반 군집화)는 두 단계, 즉 밀도 추정과 피크(중심) 선택, 그리고 비중심 객체를 가장 가까운 피크에 할당하는 과정으로 구성된다. 기존 구현에서는 각 비중심 객체가 자신의 ‘nearest higher‑density neighbor’를 따라가면서 최종 피크에 도달하도록 반복적으로 탐색한다. 이 과정은 객체 수 N에 대해 최악 O(N·L) (L은 평균 경로 길이) 복잡도를 가지며, 특히 데이터가 고밀도·저밀도 영역을 동시에 포함할 때 경로가 길어져 연산 비용이 급증한다.

논문은 이 “nearest‑higher‑density index array”를 트리 구조로 재구성한다. 각 객체 i는 부모 P(i) = argmin_{j:ρ_j>ρ_i} d(i,j) 로 정의되며, 이 관계는 자연스럽게 방향성 트리를 만든다. 트리의 루트는 전역 밀도 피크이며, 하위 노드들은 자신보다 밀도가 낮은 객체들이며 결국 동일한 피크에 귀속된다. 핵심 아이디어는 ‘리딩 트리(Leading Tree, LT)’를 만든 뒤, 피크(클러스터 중심)들을 루트에서 분리(detach)하는 연산만으로 모든 비중심 객체의 클러스터 라벨을 동시에 업데이트할 수 있다는 점이다.

LT의 두 가지 주요 최적화가 있다. 첫째, 각 노드의 자식 리스트를 γ_i = ρ_i·δ_i (δ_i는 밀도‑거리 차이) 값의 내림차순으로 정렬한다. γ가 큰 노드일수록 피크가 될 가능성이 높으며, 정렬된 구조는 루트 분리 시 가장 높은 γ를 가진 후보부터 차례로 끊어내어 불필요한 탐색을 방지한다. 둘째, 클러스터 할당은 “부모와의 연결을 끊는다(detach)”는 단순 연산으로 변환된다. 중심 객체가 선택되면 해당 노드와 그 부모 사이의 포인터만 제거하고, 그 서브트리 전체가 새로운 클러스터로 독립된다. 이렇게 하면 전체 할당 단계는 O(N) 시간에 수행되며, 기존의 반복적 경로 추적을 완전히 대체한다.

계층적 군집화 측면에서 LT는 자연스러운 트리 기반 계층 구조를 제공한다. 상위 레벨에서는 전역 피크만 남기고, 하위 레벨에서는 γ 임계값을 낮추어 더 많은 노드를 피크로 승격시켜 세분화된 군집을 만든다. 따라서 동일한 데이터에 대해 다중 스케일의 군집 결과를 일관된 구조 안에서 얻을 수 있다. 또한, 특정 노드가 여러 레벨에서 피크 후보가 되는 빈도와 경로 길이를 분석함으로써 데이터의 “핵심성”과 “연결성”을 정량화할 수 있다.

실험에서는 합성 데이터와 실제 이미지 특징 데이터(예: SIFT, SURF)를 대상으로 기존 DPCLUS와 비교했다. 결과는 (1) 할당 단계 실행 시간이 평균 70% 이상 감소, (2) 메모리 사용량은 동일하거나 약간 감소, (3) 계층적 클러스터링 정확도(Adjusted Rand Index 기준)는 기존 방법과 동등하거나 약간 향상됨을 보여준다. 특히 대규모 데이터(N>10⁵)에서 경로 탐색 비용이 급격히 늘던 기존 방식과 달리, LT 기반 구현은 선형 시간 복잡도를 유지한다.

이 논문은 DPCLUS의 핵심 연산을 트리 구조로 재구성함으로써 알고리즘의 효율성을 크게 개선하고, 동시에 계층적 군집화와 중심 후보 분석이라는 부가 가치를 제공한다. 향후 연구에서는 LT를 다른 밀도 기반 군집화(예: DBSCAN, HDBSCAN)와 결합하거나, GPU/분산 환경에서 트리 구축 및 분리 연산을 병렬화하는 방안을 탐색할 수 있다.