이산 분포 근접성 테스트
초록
두 개의 n-원소 집합 위 확률분포에 대해 독립 표본을 이용해 ℓ₁ 거리 기준으로 가까운지 여부를 판단한다. 제안된 알고리즘은 표본 복잡도가 O(n^{2/3} ε^{-8/3} log n)이며, 실행 시간은 표본 수에 선형이다. 거리 임계값이 ε 이하와 ε보다 큰 경우를 구분하며, Valiant이 제시한 Ω(n^{2/3} ε^{-2/3}) 하한과 거의 일치한다. 또한 빠른 혼합성을 검사하는 마코프 체인 문제에도 적용 가능하다.
상세 분석
이 논문은 두 확률분포 p와 q가 동일한지 혹은 ℓ₁ 거리 ‖p−q‖₁이 ε보다 큰지를 표본만으로 판단하는 “closeness testing” 문제에 초점을 맞춘다. 기존 연구에서는 전체 분포를 복원하려면 Θ(n)개의 표본이 필요했지만, 이 작업은 실제로는 두 분포 사이의 차이만 확인하면 되므로 더 적은 표본으로도 충분할 가능성이 있다. 저자들은 이를 정량화하기 위해 “sublinear” 알고리즘을 설계했으며, 핵심 아이디어는 고빈도 원소와 저빈도 원소를 별도로 처리하는 것이다.
알고리즘은 먼저 각 분포에서 m = Θ(n^{2/3} ε^{-8/3} log n)개의 독립 표본을 추출한다. 표본을 통해 각 원소 i에 대한 관측 빈도 X_i와 Y_i를 얻고, 이들을 이용해 통계량 Z_i = (X_i−Y_i)^2 − (X_i+Y_i) 를 정의한다. 이 통계량은 기대값이 ‖p−q‖_2^2에 비례하도록 설계되었으며, 고빈도 원소(즉, p_i+q_i ≳ 1/m)에서는 중앙극한정리를 적용해 정규 근사를, 저빈도 원소에서는 포아송 근사를 이용해 분산을 제어한다. 전체 통계량 Z = Σ_i Z_i 를 합산한 뒤, 적절한 임계값 τ와 비교한다. τ는 두 경우(‖p−q‖₁ ≤ ε·n^{-1/2}/4 혹은 ≤ ε^{4/3}·n^{-1/3}/32) 사이의 간격을 충분히 벌리도록 선택된다.
복잡도 분석에서는 먼저 기대값과 분산을 정확히 계산한다. 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기