대칭과 비대칭 LSH로 풀어보는 내적 검색

본 논문은 내적 유사도 검색을 위한 LSH 설계에서 대칭 해시가 존재함을 증명하고, 기존 비대칭 LSH보다 이론적·실험적으로 우수한 SIMPLE‑LSH를 제안한다. 또한, 전체 실수 공간에서는 대칭·비대칭 모두 불가능하지만, 쿼리 정규화·데이터 제한 조건 하에서는 대칭 LSH가 충분함을 보인다.

저자: Behnam Neyshabur, Nathan Srebro

본 논문은 내적 유사도 기반 최대 내적 검색(Maximum Inner Product Search, MIPS) 문제를 효율적으로 해결하기 위한 해시 기법을 재검토한다. 기존 연구인 Shrivastava와 Li(2014)는 전체 실수 공간 ℝᵈ에서는 대칭 LSH가 존재하지 않으므로, 쿼리와 데이터에 서로 다른 매핑을 적용하는 비대칭 LSH(L₂‑ALSH, SIGN‑ALSH)를 제안하였다. 그러나 저자들은 두 가지 중요한 점을 지적한다. 첫째, ℝᵈ 전체에 대해 대칭이든 비대칭이든 (S,cS)-LSH가 존재하지 않음을 정리 3.1을 통해 증명한다. 이 증명은 마진 복잡도와 행렬 충돌 확률 사이의 관계를 이용해, 어떤 고정된 차이 p₁−p₂>0을 유지할 수 없음을 보인다. 둘째, 실제 MIPS 상황에서는 쿼리와 데이터에 대한 자연스러운 제약—쿼리는 정규화되고 데이터는 단위 구 안에 제한—이 존재한다는 점이다. 이러한 제약 하에서는 비대칭이 반드시 필요하지 않으며, 대칭 해시도 충분히 설계될 수 있다. 이를 바탕으로 저자들은 SIMPLE‑LSH라는 새로운 대칭 해시를 제안한다. 핵심 아이디어는 모든 벡터 x (‖x‖≤1)를 고차원으로 확장하는 변환 P(x)=

대칭과 비대칭 LSH로 풀어보는 내적 검색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기