전처리를 활용한 고속 클러스터링

초록

이 논문은 저배율 차원(doubling dimension)이 작은 메트릭 공간을 사전에 전처리한 뒤, 쿼리 집합 Q에 대해 1‑median, p‑center, p‑median 등 전형적인 클러스터링 목표를 근사적으로 해결하는 알고리즘을 제시한다. 전처리 단계는 전체 점 집합 M(크기 m)을 이용해 데이터 구조를 구축하고, 쿼리 단계에서는 Q(크기 n)의 크기에 거의 비례하는 시간만에 해를 얻는다. 따라서 m에 거의 의존하지 않는 거의 선형 시간 복잡도를 달성한다.

상세 분석

본 연구는 “전처리‑쿼리” 모델을 클러스터링 문제에 적용함으로써, 기존의 메트릭 클러스터링 알고리즘이 갖는 m‑의존성을 크게 완화한다는 점에서 혁신적이다. 저배율 차원(δ)이라는 구조적 가정을 활용해, 전처리 단계에서 M 전체에 대한 (δ‑net) 혹은 (cover tree)와 같은 계층적 근사 구조를 구축한다. 이러한 구조는 거리 계산을 로그‑스케일로 압축하고, 임의의 쿼리 점에 대해 근접 이웃을 빠르게 탐색할 수 있게 한다.

쿼리 단계에서는 먼저 Q의 각 점을 전처리된 계층 구조에 매핑하여, 해당 점이 속한 클러스터 후보군을 O(log m) 시간 안에 식별한다. 이후 p‑center 혹은 p‑median 목표에 대해 전형적인 그리디 혹은 라운드‑업 기법을 적용한다. 핵심은 “대표점(rep)”을 미리 선정해 두고, Q의 점들을 가장 가까운 대표점에 할당함으로써 비용 함수를 근사한다는 점이다. 이때 대표점 집합의 크기는 O(δ·p·log Δ) 수준으로, Δ는 M의 직경 비율이다.

알고리즘의 정확도 분석에서는, 저배율 차원 공간에서 거리 보존이 (1+ε)‑근사로 유지된다는 사실을 이용한다. 따라서 전처리된 구조를 통해 얻은 근사 비용은 최적 비용의 (1+O(ε)) 배 이내임을 증명한다. 시간 복잡도는 전처리 O(m log m)와 쿼리 O(n·poly(δ, 1/ε)) 로 분리되며, 특히 n이 m에 비해 현저히 작을 때 쿼리 단계가 거의 선형 시간에 수행된다.

또한, 저자는 실험을 통해 유클리드 2차원, 3차원, 그리고 고차원 임베딩(예: word2vec) 데이터에 대해 동일한 성능 향상을 확인한다. 전처리 비용이 한 번만 발생하고, 다수의 독립적인 Q에 대해 재사용 가능하다는 점은 대규모 데이터 분석 파이프라인에서 실용성을 크게 높인다.

결과적으로, 이 논문은 저배율 차원 메트릭에 대한 전처리 기반 클러스터링 프레임워크를 제시함으로써, 기존의 O(m·poly log m) 수준 알고리즘을 O(n·poly log δ) 수준으로 가속화한다는 중요한 이론적·실용적 기여를 한다.