On Sparse Hitting Sets: from Fair Vertex Cover to Highway Dimension

📝 Abstract
We consider the Sparse Hitting Set (Sparse-HS) problem, where we are given a set system $(V,\mathcal{F},\mathcal{B})$ with two families $\mathcal{F},\mathcal{B}$ of subsets of $V $. The task is to find a hitting set for $\mathcal{F}$ that minimizes the maximum number of elements in any of the sets of $\mathcal{B} $. Our focus is on determining the complexity of some special cases of Sparse-HS with respect to the sparseness $k $, which is the optimum number of hitting set elements in any set of $\mathcal{B} $. For the Sparse Vertex Cover (Sparse-VC) problem, $V$ is given by the vertex set of a graph, and $\mathcal{F}$ is its edge set. We prove NP-hardness for sparseness $k\geq 2$ and polynomial time solvability for $k=1 $. We also provide a polynomial-time $2 $-approximation for any $k $. A special case of Sparse-VC is Fair Vertex Cover (Fair-VC), where the family $\mathcal{B}$ is given by vertex neighbourhoods. For this problem we prove NP-hardness for constant $k$ and provide a polynomial-time $(2-\frac{1}{k}) $-approximation. This is better than any approximation possible for Sparse-VC or Vertex Cover (under UGC). We then consider two problems derived from Sparse-HS related to the highway dimension, a graph parameter modelling transportation networks. Most algorithms for graphs of low highway dimension compute solutions to the $r $-Shortest Path Cover ( $r$-SPC) problem, where $r>0 $, $\mathcal{F}$ contains all shortest paths of length between $r$ and $2r $, and $\mathcal{B}$ contains all balls of radius $2r $. There is an XP algorithm that computes solutions to $r $-SPC of sparseness at most $h$ if the input graph has highway dimension $h $, but the existence if an FPT algorithm was open. We prove that $r $-SPC and also the related $r $-Highway Dimension ( $r$-HD) problem are both W[1]-hard. Furthermore, we prove that $r $-SPC admits a polynomial-time $O(\log n) $-approximation.
💡 Analysis
We consider the Sparse Hitting Set (Sparse-HS) problem, where we are given a set system $(V,\mathcal{F},\mathcal{B})$ with two families $\mathcal{F},\mathcal{B}$ of subsets of $V $. The task is to find a hitting set for $\mathcal{F}$ that minimizes the maximum number of elements in any of the sets of $\mathcal{B} $. Our focus is on determining the complexity of some special cases of Sparse-HS with respect to the sparseness $k $, which is the optimum number of hitting set elements in any set of $\mathcal{B} $. For the Sparse Vertex Cover (Sparse-VC) problem, $V$ is given by the vertex set of a graph, and $\mathcal{F}$ is its edge set. We prove NP-hardness for sparseness $k\geq 2$ and polynomial time solvability for $k=1 $. We also provide a polynomial-time $2 $-approximation for any $k $. A special case of Sparse-VC is Fair Vertex Cover (Fair-VC), where the family $\mathcal{B}$ is given by vertex neighbourhoods. For this problem we prove NP-hardness for constant $k$ and provide a polynomial-time $(2-\frac{1}{k}) $-approximation. This is better than any approximation possible for Sparse-VC or Vertex Cover (under UGC). We then consider two problems derived from Sparse-HS related to the highway dimension, a graph parameter modelling transportation networks. Most algorithms for graphs of low highway dimension compute solutions to the $r $-Shortest Path Cover ( $r$-SPC) problem, where $r>0 $, $\mathcal{F}$ contains all shortest paths of length between $r$ and $2r $, and $\mathcal{B}$ contains all balls of radius $2r $. There is an XP algorithm that computes solutions to $r $-SPC of sparseness at most $h$ if the input graph has highway dimension $h $, but the existence if an FPT algorithm was open. We prove that $r $-SPC and also the related $r $-Highway Dimension ( $r$-HD) problem are both W[1]-hard. Furthermore, we prove that $r $-SPC admits a polynomial-time $O(\log n) $-approximation.
📄 Content
우리는 Sparse Hitting Set(Sparse‑HS) 문제를 연구한다. 이 문제는 원소 집합 (V)와 두 개의 부분집합 패밀리 (\mathcal{F},\mathcal{B}\subseteq 2^{V}) 로 이루어진 집합 시스템 ((V,\mathcal{F},\mathcal{B}))가 주어졌을 때, (\mathcal{F})의 모든 집합을 적어도 하나의 원소로 “치다”(hitting)는 hitting set (S\subseteq V) 를 찾는 것이 목표이다. 여기서 우리는 추가적인 목적 함수를 도입한다. 바로 (\mathcal{B})에 속한 각 집합 (B\in\mathcal{B}) 에 대해 (S\cap B) 의 크기를 살펴보고, 그 중 최대값을 최소화하는 것이다. 즉,
[
\min_{S\text{ is a hitting set of }\mathcal{F}} ;\max_{B\in\mathcal{B}} |S\cap B|
]
를 구하는 것이 Sparse‑HS 문제이다. 이때 최적값을 sparseness(k) 라고 부른다. 즉, 최적 해에서는 (\mathcal{B})의 어느 집합에서도 (k) 개보다 많은 원소가 선택되지 않는다.
1. Sparse Vertex Cover (Sparse‑VC)
Sparse‑VC는 위 일반적인 정의를 그래프 이론에 특수화한 경우이다. 여기서
- (V) : 그래프 (G=(V,E)) 의 정점 집합,
- (\mathcal{F}=E) : 모든 간선이 하나의 2‑원소 집합으로 간주되는 “edge set”,
- (\mathcal{B}) : 임의의 정점 집합들의 컬렉션 (문제 정의에 따라 달라짐).
목표는 전통적인 Vertex Cover 와 동일하게 모든 간선을 덮는 정점 집합 (C\subseteq V) 를 찾는 것이지만, 동시에 (\mathcal{B})에 속한 각 집합 안에 포함되는 정점 수 (|C\cap B|) 의 최댓값을 최소화한다.
난이도 결과
- (k\ge 2) 인 경우 : sparseness 가 2 이상이면 문제는 NP‑hard임을 증명하였다. 이는 기존 Vertex Cover 가 이미 NP‑hard 임을 이용한 복잡도 감소(reduction)와, (\mathcal{B}) 를 적절히 구성함으로써 “두 개 이상의 정점이 같은 (\mathcal{B})‑집합에 동시에 포함될 수 있다”는 제약을 추가한 결과이다.
- (k=1) 인 경우 : sparseness 가 1이면 문제는 다항 시간에 해결 가능함을 보였다. 구체적으로, (\mathcal{B}) 의 각 집합에 정점이 하나씩만 포함될 수 있기 때문에, 이는 이분 매칭(bipartite matching) 혹은 최대 흐름(max‑flow) 알고리즘으로 환원될 수 있다.
근사 알고리즘
모든 (k) 에 대해 (2)-approximation 알고리즘을 제시하였다. 알고리즘은 먼저 일반 Vertex Cover 의 2‑approximation (예: 최대 매칭 기반) 을 구하고, 그 결과를 (\mathcal{B}) 에 대한 제약을 만족하도록 적절히 조정한다. 증명에 따르면, 최적 해의 sparseness (k) 에 관계없이 얻어지는 해의 최대 (|C\cap B|) 은 최적값의 두 배를 넘지 않는다.
2. Fair Vertex Cover (Fair‑VC)
Sparse‑VC 의 특수한 경우로, (\mathcal{B}) 를 정점 이웃집합(neighbourhood) 으로 정의한다. 즉, 각 정점 (v) 에 대해 (\mathcal{B}) 에는 (N(v)={u\mid {u,v}\in E}) 가 포함된다. 이때 “공정성”(fairness) 은 각 정점의 이웃 안에 포함되는 커버 정점의 수가 제한값 (k) 를 초과하지 않도록 하는 것이다.
난이도 결과
- 상수 (k) (예: (k=3,4,\dots)) 에 대해서도 문제는 NP‑hard 임을 증명하였다. 이는 기존의 Bounded Degree Vertex Cover 혹은 Partition 문제로부터의 감소를 이용한 것으로, 이웃 집합이 겹치는 구조를 정교히 설계함으로써 얻어진다.
근사 알고리즘
(k) 가 고정된 경우, ((2-\frac{1}{k}))-approximation 알고리즘을 제시한다. 알고리즘은 먼저 일반 Vertex Cover 의 2‑approximation 을 구한 뒤, 각 정점 (v) 에 대해 현재 커버가 (N(v)) 안에 차지하는 비율을 확인한다. 만약 (|C\cap N(v)| > (2-\frac{1}{k})\cdot k) 가 되면, 추가적인 로컬 교환(local exchange) 과정을 통해 비율을 낮춘다. 증명에서는 이 과정을 반복해도 전체 비용이 ((2-\frac{1}{k})) 배를 초과하지 않음을 보인다.
이 근사는 UGC(Unique Games Conjecture) 하에서 Sparse‑VC 혹은 일반 Vertex Cover 에 대해 가능한 최선의 근사 비율보다 엄격히 우수함을 의미한다. 즉, Fair‑VC 는 동일한 입력에 대해 더 강력한 근사 보장을 제공한다.
3. Highway Dimension 과 연관된 두 문제
고속도로 차원(highway dimension)은 교통망을 모델링하기 위해 도입된 그래프 파라미터이다. 차원이 작을수록 “장거리 최단 경로”가 비교적 적은 수의 “핵심 정점”(hub) 을 통해 표현될 수 있음을 의미한다. 최근 많은 알고리즘이 low highway‑dimension 그래프에서 효율적인 근사·정확 해를 제공한다.
3.1 (r)-Shortest Path Cover ((r)-SPC)
- 입력 : 양의 실수 (r>0) 와 그래프 (G).
- (\mathcal{F}) : 길이가 (r) 이상 (2r) 이하인 모든 최단 경로들의 집합.
- (\mathcal{B}) : 반경 (2r) 인 모든 볼(ball) (즉, 중심 정점 (v) 에 대해 ({u\mid \text{dist}(u,v)\le 2r})).
목표는 (\mathcal{F}) 를 모두 치는 정점 집합 (S) 를 찾으면서, (\mathcal{B}) 에 속한 어느 볼 안에서도 (|S\cap B|) 가 최소가 되도록 하는 것이다. 즉, sparseness 를 최소화한다.
3.2 (r)-Highway Dimension ((r)-HD)
(r)-HD 문제는 위와 동일한 입력을 갖지만, 목표는 sparseness 가 주어진 정수 (h) 이하인 해가 존재하는지를 판정하는 결정 문제이다. 여기서 (h) 는 그래프의 highway dimension 과 직접적인 연관이 있다.
기존 알고리즘과 열린 질문
입력 그래프가 highway dimension (h) 를 갖는 경우, XP 알고리즘이 존재한다. 즉, 파라미터 (h) 를 고정하면 시간 복잡도가 (n^{O(h)}) 로 해결 가능하다. 그러나 FPT(Fixed‑Parameter Tractable) 알고리즘, 즉 시간 복잡도가 (f(h)\cdot n^{O(1)}) 형태인 알고리즘이 존재하는지는 오랫동안 미해결 문제였다.
난이도 결과
- 우리는 (r)-SPC 와 (r)-HD 모두 W[1]‑hard 임을 증명하였다. 감소는 Multicolored Clique 혹은 k‑Clique 문제로부터 수행되며, 각 색(색상)마다 서로 다른 “hub” 를 강제함으로써 highway dimension 파라미터가 그대로 유지되도록 설계하였다. 따라서 파라미터 (h) 에 대해 FPT 알고리즘이 존재한다는 가정은 W[1] ≠ FPT 라는 복잡도 가정 하에 부정된다.
근사 알고리즘
또한, (r)-SPC 에 대해 다항 시간 (O(\log n))-approximation 알고리즘을 제시한다. 알고리즘의 핵심 아이디어는
- 모든 길이 ([r,2r]) 구간의 최단 경로를 set cover 형태로 모델링하고,
- 전통적인 greedy set cover 알고리즘을 적용하여 각 단계마다 가장 많은 아직 커버되지 않은 경로를 포함하는 정점을 선택한다.
이 greedy 과정은 classic set cover 의 (H_{\max}) (harmonic number) 근사 비율을 만족하며, 여기서 (\max) 은 전체 경로 수 (\le n^{2}) 이므로 (O(\log n)) 로 제한된다. 증명에서는 이 근사 비율이 highway dimension 파라미터와 무관하게 유지된다는 점을 강조한다.
정리
- Sparse‑VC : (k=1) 은 다항 시간, (k\ge 2) 은 NP‑hard, 모든 (k) 에 대해 2‑approximation.
- Fair‑VC (Sparse‑VC 의 특수 케이스) : 상수 (k) 에 대해 NP‑hard, ((2-\frac{1}{k}))-approximation (UGC 하에서 최적에 근접).
- highway dimension 와 연관된 (r)-SPC, (r)-HD : 두 문제 모두 W[1]‑hard, 따라서 파라미터 (h) 에 대한 FPT 알고리즘은 존재하지 않을 가능성이 높다. 또한 (r)-SPC 에 대해 다항 시간 (O(\log n))-approximation 알고리즘을 제공한다.
이러한 결과들은 “sparseness” 라는 새로운 파라미터가 기존의 Vertex Cover, Set Cover, Highway Dimension 문제들에 어떻게 영향을 미치는지를 명확히 보여준다. 특히, 공정