희소 고차원 이질 데이터 근사 최근접 이웃 탐색

본 논문은 서로 다른 통계적 특성을 가진 희소 고차원 이진 특징들에 대해, 좌표별 확률 정보를 이용해 무작위 순서를 부여하고 사전식(lexicographic) 정렬을 통해 버킷을 만든다. 여러 번 시도(T번)하면서 좌표를 중요도에 따라 재배열하고, 인접한 점들을 비교함으로써 특수한 가까운 쌍을 찾는다. 알고리즘의 성공 확률은 “버킷링 포레스트 정보”라는 함수로 분석되며, 이 함수 기반 상한·하한을 통해 제시된 방법이 특정 클래스 내에서 최적임을…

저자: ** Moshe Dubiner (Google) **

본 논문은 고차원 이진 특징 공간에서 희소하고 이질적인 데이터에 대한 근사 최근접 이웃(Approximate Nearest Neighbor, ANN) 탐색 문제를 다룬다. 전통적인 ANN 알고리즘은 대부분 좌표가 동일한 확률 분포를 가진 동질(Homogeneous) 데이터를 전제로 설계되었으며, 차원 축소를 통해 계산량을 줄이는 방식을 사용한다. 그러나 실제 응용에서는 각 좌표가 서로 다른 발생 확률(p_i,11, p_i,01, p_i,10 등)을 가지는 경우가 흔하며, 이러한 이질성은 차원 축소 시 정보 손실을 초래해 성능을 저하시킨다. 저자는 이러한 문제점을 인식하고, 차원 축소 없이 직접 좌표별 통계 정보를 활용하는 새로운 알고리즘을 제안한다. 1. **문제 정의와 기본 모델** - 두 개의 점 집합 X₀, X₁ (각각 n₀, n₁ 개) 가 주어지고, 그 중 하나의 특수한 쌍 (x₀∈X₀, x₁∈X₁) 은 다른 모든 쌍보다 Hamming 거리(또는 변형) 상에서 현저히 가깝다. - 각 좌표 i는 독립적인 이진 확률 분포를 가지며, 특수 쌍에 대해서는 공동 확률 행렬 P_i =

희소 고차원 이질 데이터 근사 최근접 이웃 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기