Tight Bounds for Approximate Near Neighbor Searching for Time Series under the Fréchet Distance

Reading time: 5 minute
...
Featured Image

📝 Abstract

We study the $c $-approximate near neighbor problem under the continuous Fréchet distance: Given a set of $n$ polygonal curves with $m$ vertices, a radius $δ> 0 $, and a parameter $k \leq m $, we want to preprocess the curves into a data structure that, given a query curve $q$ with $k$ vertices, either returns an input curve with Fréchet distance at most $c\cdot δ$ to $q $, or returns that there exists no input curve with Fréchet distance at most $δ$ to $q $. We focus on the case where the input and the queries are one-dimensional polygonal curves – also called time series – and we give a comprehensive analysis for this case. We obtain new upper bounds that provide different tradeoffs between approximation factor, preprocessing time, and query time. Our data structures improve upon the state of the art in several ways. We show that for any $0 < \varepsilon \leq 1$ an approximation factor of $(1+\varepsilon)$ can be achieved within the same asymptotic time bounds as the previously best result for $(2+\varepsilon) $. Moreover, we show that an approximation factor of $(2+\varepsilon)$ can be obtained by using preprocessing time and space $O(nm) $, which is linear in the input size, and query time in $O(\frac{1}{\varepsilon})^{k+2} $, where the previously best result used preprocessing time in $n \cdot O(\frac{m}{\varepsilon k})^k$ and query time in $O(1)^k $. We complement our upper bounds with matching conditional lower bounds based on the Orthogonal Vectors Hypothesis. Interestingly, some of our lower bounds already hold for any super-constant value of $k $. This is achieved by proving hardness of a one-sided sparse version of the Orthogonal Vectors problem as an intermediate problem, which we believe to be of independent interest.

💡 Analysis

We study the $c $-approximate near neighbor problem under the continuous Fréchet distance: Given a set of $n$ polygonal curves with $m$ vertices, a radius $δ> 0 $, and a parameter $k \leq m $, we want to preprocess the curves into a data structure that, given a query curve $q$ with $k$ vertices, either returns an input curve with Fréchet distance at most $c\cdot δ$ to $q $, or returns that there exists no input curve with Fréchet distance at most $δ$ to $q $. We focus on the case where the input and the queries are one-dimensional polygonal curves – also called time series – and we give a comprehensive analysis for this case. We obtain new upper bounds that provide different tradeoffs between approximation factor, preprocessing time, and query time. Our data structures improve upon the state of the art in several ways. We show that for any $0 < \varepsilon \leq 1$ an approximation factor of $(1+\varepsilon)$ can be achieved within the same asymptotic time bounds as the previously best result for $(2+\varepsilon) $. Moreover, we show that an approximation factor of $(2+\varepsilon)$ can be obtained by using preprocessing time and space $O(nm) $, which is linear in the input size, and query time in $O(\frac{1}{\varepsilon})^{k+2} $, where the previously best result used preprocessing time in $n \cdot O(\frac{m}{\varepsilon k})^k$ and query time in $O(1)^k $. We complement our upper bounds with matching conditional lower bounds based on the Orthogonal Vectors Hypothesis. Interestingly, some of our lower bounds already hold for any super-constant value of $k $. This is achieved by proving hardness of a one-sided sparse version of the Orthogonal Vectors problem as an intermediate problem, which we believe to be of independent interest.

📄 Content

우리는 연속 프레셰(Fréchet) 거리 하에서 c‑근사 근접 이웃(near‑neighbor) 문제를 연구한다. 구체적으로, 정점이 m개인 n개의 다각형 곡선(폴리곤 곡선) 집합이 주어지고, 반경 δ > 0와 정수 매개변수 k ≤ m가 주어질 때, 우리는 다음과 같은 쿼리 형태에 대해 사전 처리된 자료구조를 구축하고자 한다.
쿼리 곡선 qk개의 정점을 갖는 다각형 곡선이며, 자료구조는

  • q와 프레셰 거리가 c·δ 이하인 입력 곡선 하나를 반환하거나,
  • 프레셰 거리가 δ 이하인 입력 곡선이 존재하지 않음을 반환한다.

우리는 특히 입력 곡선과 쿼리 곡선이 모두 1차원 다각형 곡선, 즉 **시간 시계열(time series)**인 경우에 초점을 맞추어, 이 경우에 대한 포괄적인 분석을 제공한다. 이 경우에 대해 우리는 새로운 상한(upper bound)을 도출했으며, 이 상한은 근사 비율(approximation factor), 전처리 시간(preprocessing time), 그리고 쿼리 시간(query time) 사이에 다양한 트레이드오프(trade‑off)를 제공한다.

우리의 자료구조는 기존 최첨단(state‑of‑the‑art) 방법보다 여러 면에서 개선된다. 먼저, 0 < ε ≤ 1인 임의의 ε에 대해 **(1 + ε)**라는 근사 비율을, 이전에 (2 + ε) 근사 비율에 대해 알려진 최선의 시간 복잡도와 동일한 점근적(asymptotic) 시간 한계 내에서 달성할 수 있음을 보였다. 즉, 기존에 (2 + ε) 근사에만 적용 가능했던 전처리·쿼리 복잡도를 그대로 유지하면서 (1 + ε) 근사까지 끌어올릴 수 있다.

또한, (2 + ε) 근사 비율을 얻기 위해서는 전처리 시간과 저장 공간을 O(n m), 즉 입력 크기에 선형(linear)인 수준으로 제한하면서도, 쿼리 시간은 O\bigl((1/ε)^{k+2}\bigr) 로 만들 수 있음을 보였다. 이는 이전에 알려진 최선의 결과가 전처리 시간 n·O\bigl((m/(ε k))^{k}\bigr) 와 쿼리 시간 O(1)^{k} 를 필요로 했던 것에 비해 현저히 효율적이다.

우리의 상한 결과는 단순히 알고리즘적 개선에 그치지 않는다. 우리는 **조건부 하한(conditional lower bound)**도 제시했으며, 이는 직교 벡터 가설(Orthogonal Vectors Hypothesis, OVH) 에 기반한다. 흥미롭게도, 이러한 하한 중 일부는 k 가 초상수(super‑constant)인 경우에도 그대로 성립한다. 이를 위해 우리는 일방향 희소(One‑Sided Sparse) 직교 벡터 문제라는 새로운 중간 문제의 어려움을 증명하였다. 이 문제는 OVH와 직접 연결될 뿐만 아니라, 자체적으로도 독립적인 연구 가치를 지닌다고 판단한다.

요약하면, 본 연구는 1차원 시간 시계열에 대한 연속 프레셰 거리 기반 c‑근사 근접 이웃 문제에 대해

  1. (1 + ε) 근사 비율을 기존 최선과 동일한 복잡도로 달성하는 새로운 알고리즘,
  2. (2 + ε) 근사 비율을 입력 크기에 선형적인 전처리·저장 비용과 (1/ε)^{k+2} 수준의 쿼리 시간으로 구현하는 방법,
  3. 위 결과들의 최적성을 뒷받침하는 OVH 기반 조건부 하한을 제공,

이라는 세 가지 주요 기여를 한다. 특히, 일방향 희소 직교 벡터 문제의 난이도 증명은 향후 다른 거리 기반 근사 검색 문제에 대한 복잡도 분석에도 활용될 수 있을 것으로 기대한다.

이러한 결과들은 시간 시계열 데이터베이스, 움직임 분석, 그리고 연속 프레셰 거리를 활용하는 다양한 응용 분야에서 근사 검색 효율성을 크게 향상시킬 수 있는 이론적 토대를 제공한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut