비대칭 LSH를 이용한 서브리니어 최대 내적 검색

1. 서론 및 문제 정의 Maximum Inner Product Search(MIPS)는 주어진 쿼리 q∈ℝᴰ에 대해 데이터 집합 S={x₁,…,x_N}⊂ℝᴰ 중 qᵀx를 최대화하는 x를 찾는 문제이다. 이 문제는 추천 시스템, 대규모 객체 검출(DPM), 구조적 SVM, 다중 클래스 예측 등 다양한 실용 분야에서 핵심 서브루틴으로 등장한다. 기존의 근사 근접 이웃(NN) 탐색은 거리 ‖q−x‖₂를 최소화하는 형태와 동등하지만, 데이터 벡터들의 ‖x‖₂가 일정하지 않을 경우 두 문제는 동등하지 않다. 특히 협업 필터링에서 아이템 벡터의 크기가 크게 변동하므로, 기존 NN 기반 방법을 그대로 적용할 수 없다. 2. 기존 LSH와 MIPS의 부조화 Locality Sensitive Hashing(LSH)은 “유사한 객체는 해시값이 충돌할 확률이 높다”는 성질을 이용해 서브리니어 시간 근사 NN을 제공한다. L₂‑LSH는 p‑stable 분포를 이용해 ‖x−y‖₂에 대한 충돌 확률을 단조 감소 함수로 만들지만, 내적 xᵀy와는 직접적인 단조 관계가 없으며, 특히 ‖x‖₂가 변동하면 충돌 확률이 오히려 역전될 수 있다. 논문은 정리 1을 통해 “내적에 대한 LSH는 존재할 수 없다”는 부정적 결과를 증명한다. 핵심 논증은 자기 자신과의 충돌 확률이 1인 상황에서, 더 큰 내적을 갖는 다른 점과의 충돌 확률이 1보다 커질 수 없다는 모순을 이용한다. 3. 비대칭 LSH(Asymmetric LSH, ALSH) 설계 전통 LSH는 전처리와 쿼리 단계에서 동일한 해시 함수를 사용한다는 가정에 기반한다. 그러나 증명에 필요한 조건은 “충돌 확률이 유사도와 단조적으로 증가한다”는 것뿐이며, 해시 함수 자체가 동일할 필요는 없다. 이를 이용해 저자들은 두 개의 비대칭 변환 P와 Q를 정의한다. - 데이터 변환 P(x) =

비대칭 LSH를 이용한 서브리니어 최대 내적 검색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기