비대칭 LSH를 이용한 서브리니어 최대 내적 검색
본 논문은 정규화되지 않은 내적을 유사도 측정으로 사용하는 최대 내적 검색(MIPS)을 서브리니어 시간에 근사적으로 해결하는 최초의 해시 기반 알고리즘을 제시한다. 기존 LSH 프레임워크가 MIPS에 적용될 수 없음을 증명하고, 비대칭 해시 함수를 허용하는 확장된 LSH(Asymmetric LSH, ALSH) 체계를 도입한다. ALSH는 데이터와 쿼리에 각각 독립적인 변환을 적용해 내적 문제를 근사 근접 이웃(NN) 문제로 변환하고, 이를 통해…
저자: Anshumali Shrivastava, Ping Li
1. 서론 및 문제 정의
Maximum Inner Product Search(MIPS)는 주어진 쿼리 q∈ℝᴰ에 대해 데이터 집합 S={x₁,…,x_N}⊂ℝᴰ 중 qᵀx를 최대화하는 x를 찾는 문제이다. 이 문제는 추천 시스템, 대규모 객체 검출(DPM), 구조적 SVM, 다중 클래스 예측 등 다양한 실용 분야에서 핵심 서브루틴으로 등장한다. 기존의 근사 근접 이웃(NN) 탐색은 거리 ‖q−x‖₂를 최소화하는 형태와 동등하지만, 데이터 벡터들의 ‖x‖₂가 일정하지 않을 경우 두 문제는 동등하지 않다. 특히 협업 필터링에서 아이템 벡터의 크기가 크게 변동하므로, 기존 NN 기반 방법을 그대로 적용할 수 없다.
2. 기존 LSH와 MIPS의 부조화
Locality Sensitive Hashing(LSH)은 “유사한 객체는 해시값이 충돌할 확률이 높다”는 성질을 이용해 서브리니어 시간 근사 NN을 제공한다. L₂‑LSH는 p‑stable 분포를 이용해 ‖x−y‖₂에 대한 충돌 확률을 단조 감소 함수로 만들지만, 내적 xᵀy와는 직접적인 단조 관계가 없으며, 특히 ‖x‖₂가 변동하면 충돌 확률이 오히려 역전될 수 있다. 논문은 정리 1을 통해 “내적에 대한 LSH는 존재할 수 없다”는 부정적 결과를 증명한다. 핵심 논증은 자기 자신과의 충돌 확률이 1인 상황에서, 더 큰 내적을 갖는 다른 점과의 충돌 확률이 1보다 커질 수 없다는 모순을 이용한다.
3. 비대칭 LSH(Asymmetric LSH, ALSH) 설계
전통 LSH는 전처리와 쿼리 단계에서 동일한 해시 함수를 사용한다는 가정에 기반한다. 그러나 증명에 필요한 조건은 “충돌 확률이 유사도와 단조적으로 증가한다”는 것뿐이며, 해시 함수 자체가 동일할 필요는 없다. 이를 이용해 저자들은 두 개의 비대칭 변환 P와 Q를 정의한다.
- 데이터 변환 P(x) =
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기