온라인 합반경 클러스터링: 로그 차원의 경쟁비와 새로운 알고리즘

본 논문은 온라인으로 도착하는 수요점들을 고정된 개방비와 반경 비용을 갖는 클러스터에 할당하는 문제인 Online Sum‑Radii Clustering을 연구한다. 일반 메트릭 공간에서 결정적 경쟁비가 Θ(log n)임을 보이며, 하위 경계는 삼진 HST와 유클리드 평면에서 성립한다. 또한 트리 메트릭에서 무작위 알고리즘의 경쟁비 하한을 Ω(log log n)으로, O(log n) 무작위 알고리즘과 O(log log n) 결정적 분수 알고리즘을…

저자: Dimitris Fotakis, Paraschos Koutris

온라인 합반경 클러스터링: 로그 차원의 경쟁비와 새로운 알고리즘
**1. 서론 및 문제 정의** 클러스터링은 n개의 수요점을 k개의 그룹으로 나누어 특정 목적 함수를 최소화하는 전통적인 최적화 문제이다. 본 논문은 이러한 클러스터링을 온라인 환경으로 확장한 Online Sum‑Radii Clustering(이하 OnlSumRad)을 다룬다. 여기서는 각 클러스터의 비용을 고정된 개방비 f와 클러스터 반경 r의 합(f + r)으로 정의하고, 수요점이 순차적으로 도착할 때마다 이미 열려 있는 클러스터에 할당하거나, 새로운 클러스터를 열어야 한다. 클러스터가 한 번 열리면 중심과 반경을 변경할 수 없으며, 클러스터 간 병합·분할도 허용되지 않는다. 목표는 전체 비용을 최소화하는 것이다. **2. 기존 연구와 차별점** 오프라인 Sum‑k‑Radii와 Sum‑k‑Diameters 문제는 NP‑hard이며, 다양한 근사 알고리즘이 존재한다. 온라인 환경에서는 Unit Covering·Clustering과 같은 특수 경우가 연구됐으며, 특히 라인(line)에서는 상수 경쟁비가 가능했다. 그러나 평면이나 일반 메트릭에서는 아직 명확한 결과가 없었다. Csirik 등은 온라인 CSDF(Setup Cost + Diameter) 문제를 라인에서만 분석했으며, 그 경쟁비가 1 + √2 수준이었다. 본 논문은 이러한 제한을 넘어 일반 메트릭, 특히 HST와 유클리드 평면에서의 경쟁비를 정확히 규명한다. **3. 결정적 경쟁비 Θ(log n) 증명** - **상한(Upper Bound)**: 프라임‑이중 기법을 기반으로 한 온라인 알고리즘을 설계한다. 알고리즘은 각 수요점 u가 도착했을 때, 현재 열려 있는 클러스터 중 u를 포함하는 것이 없으면, 이중 변수 y_u를 1만큼 증가시키며, 가장 작은 k에 대해 2^k·f ≥ r(u)인 반경을 가진 클러스터를 연다. 이때 이중 변수의 총 증가량은 최적 해의 비용에 비례하고, 각 클러스터가 열릴 때마다 비용이 O(log n) 배만큼 증가한다는 것을 보인다. 결과적으로 전체 비용은 최적 비용의 O(log n) 배 이하가 된다. - **하한(Lower Bound)**: 삼진 HST(각 노드가 최대 3개의 자식을 갖는 계층적 잘 분리 트리)를 구성하고, 수요점을 트리의 리프에 순차적으로 배치한다. 트리의 깊이를 Θ(log n)로 설정하고, 각 레벨마다 비용이 급격히 증가하도록 설계한다. 어떤 결정적 온라인 알고리즘도 이 구조를 미리 알 수 없으므로, 매 단계마다 새로운 레벨에 해당하는 클러스터를 열어야 하며, 이는 최적 해 대비 Ω(log n) 배의 비용을 초래한다. 동일한 하한은 유클리드 평면에서도 적절히 배치된 점들을 이용해 재현한다. **4. Parking Permit 문제와의 연관성** HST 메트릭에서 K+1 레벨을 갖는 인스턴스는 Parking Permit 문제의 K 종류 허가와 동형임을 증명한다. 각 레벨은 허가의 기간에 대응하고, 레벨 간 거리 비율은 허가 비용의 감소율과 일치한다. 이를 통해 Meyerson가 제시한 무작위 경쟁비 하한 Ω(log K)를 OnlSumRad의 트리 메트릭에 적용하면, n≈2^K이므로 Ω(log log n) 하한을 얻는다. 또한, Parking Permit에 대한 c‑competitive 알고리즘이 존재한다면, 동일한 c‑competitive 알고리즘을 HST 레벨 K에 대한 OnlSumRad에 그대로 적용할 수 있음을 보인다. **5. 무작위 알고리즘 및 분수 알고리즘** - **무작위 O(log n) 알고리즘**: 알고리즘은 현재 클러스터 집합을 유지하면서, 새로운 수요점이 기존 클러스터에 포함되지 않을 경우, 로그 비율의 확률(p=1/2^i)로 반경 2^i·f인 클러스터를 연다. 기대 비용 분석을 통해 전체 비용이 최적 비용의 O(log n) 배 이하임을 보인다. 이 알고리즘은 메모리리스이며, 클러스터 중심과 반경만을 저장한다. - **결정적 O(log log n) 분수 알고리즘**: 프라임‑이중 접근을 이용해 각 클러스터에 ‘열림 정도’ x_C∈

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기