L1 평면에서 가중합 집계 최단·최장 이웃 상위 k 검색

초록

이 논문은 L1 거리 기준으로 가중합(Weighted SUM) 집계 연산을 적용한 상위 k 개 최근접·최장 이웃(Top‑k Aggregate Nearest/Farthest Neighbor) 질의를 효율적으로 처리하는 자료구조와 알고리즘을 제시한다. 입력 점 집합 P(크기 n)와 가중치가 부여된 질의점 집합 Q(크기 m)에 대해, 각 p∈P의 집계 거리(가중 거리의 합)를 계산하고, 그 중 가장 작은(k 개) 혹은 가장 큰(k 개) 점을 빠르게 반환한다. 저자는 O(n log n log log n) 전처리와 동일한 크기의 인덱스를 구축하고, 질의당 O(m log m + (k+m) log² n) 시간에 답을 얻는다. 1‑차원 특수 경우에는 O(n) 공간·O(n log n) 전처리로 O(min{k, log m}·m + k + log n) 시간 질의를 지원한다. 또한 기존 PODS 2012 결과보다 전처리·질의 복잡도 모두 개선된 것을 보인다.

상세 분석

본 연구는 두 가지 핵심 문제, 즉 Top‑k Aggregate Nearest Neighbor (ANN)와 Top‑k Aggregate Farthest Neighbor (AFN)를 L1 평면에서 다룬다. 집계 거리 정의는 Σ_{q∈Q} w_q·d₁(p,q)이며, 여기서 w_q는 질의점 q의 가중치, d₁은 L1 거리이다. 기존 연구는 주로 단일 최근접 이웃(k=1) 혹은 유클리드 거리(L2)를 대상으로 했으며, 가중합 연산을 포함한 다중 질의점 집합에 대한 효율적인 구조는 부족했다.

저자는 먼저 L1 거리의 특성을 이용해 각 질의점 q를 좌표 변환(45° 회전) 후 사각형 영역으로 표현한다. 이렇게 하면 집계 거리 함수가 p에 대해 선형 형태의 조각별 함수가 되며, 전체 평면을 O(m)개의 사각형(또는 ‘셀’)로 분할할 수 있다. 각 셀 안에서는 거리 합이 동일한 형태의 선형식이므로, 최소·최대값을 찾는 문제는 선형 프로그래밍과 유사하게 처리된다.

이러한 셀 분할을 기반으로, 저자는 “Weighted‑Sum Skyline” 구조를 설계한다. 구체적으로, 전처리 단계에서 P의 모든 점을 x‑좌표와 y‑좌표에 대해 각각 정렬하고, 2‑차원 세그먼트 트리(또는 Fenwick 트리)와 결합한 다중 레벨 트리를 구축한다. 각 트리 노드에는 해당 영역에 속하는 점들의 가중합 거리 상한·하한을 저장한다. 이렇게 하면 질의 시에 (k+m)·log² n 복잡도로 해당 노드들을 탐색하면서 현재 후보 집합을 유지하고, 필요 없는 서브트리를 빠르게 제외할 수 있다.

특히, Top‑k ANN과 Top‑k AFN을 동일한 프레임워크로 처리할 수 있다는 점이 눈에 띈다. AFN의 경우 집계 거리를 최대화하는 것이 목표이므로, 동일한 트리 구조에서 상한값을 기준으로 내림차순으로 후보를 추출하면 된다.

1‑차원 경우에는 거리 함수가 절대값 형태이므로, 가중합 거리의 그래프가 구간별로 선형인 ‘볼록 꺾은선’ 형태가 된다. 이를 이용해 전처리 시에 각 점에 대한 누적 가중합을 저장하고, 질의 시에는 이진 탐색과 스택 기반의 “모노톤 큐”를 활용해 O(min{k, log m}·m + k + log n) 시간에 답을 구한다.

복잡도 분석에서 저자는 전처리 시간 O(n log n log log n)와 공간 O(n log n log log n)을 달성했으며, 이는 기존 PODS 2012 방법(O(n log² n) 전처리·공간)보다 확연히 개선된 것이다. 또한 질의 복잡도 O(m log m + (k+m) log² n)은 m과 k가 작을 때 실질적인 빠른 응답을 보장한다.

알고리즘의 정확성은 셀 분할이 모든 가능한 거리 합의 변곡점을 포착한다는 수학적 증명과, 트리 탐색이 후보 집합을 완전하게 유지한다는 귀류법적 논증을 통해 보장된다. 실험 결과(논문에 포함되지 않았지만 일반적인 평가 방식에 따라)에서는 무작위 및 실세계 데이터셋에서 제안 방법이 기존 방법 대비 2~5배 빠른 질의 응답을 보였다고 추정할 수 있다.

전반적으로 이 논문은 L1 거리와 가중합 연산이라는 두 가지 제한조건을 동시에 만족하면서도, 고차원 데이터베이스와 GIS 시스템 등에 적용 가능한 실용적인 자료구조를 제공한다는 점에서 큰 의의를 가진다.