확률분포 거리 측정을 위한 LSH: f‑다이버전스와 상호정보 손실의 새로운 해법

본 논문은 확률분포 간 거리를 측정하는 f‑다이버전스와 그 일반화인 GJS(Generalized Jensen‑Shannon) 발산, 삼각 차별화(Triangular Discrimination)에 대해 데이터 독립적인 locality‑sensitive hashing(LSH) 스킴을 설계한다. GJS 발산을 제곱 헬링거 거리로 양·하한 근사함으로 LSH를 구성하고, Krein 커널(두 양정밀도 커널 차)의 LSH 설계 문제를 최대 내적 탐색(MIP…

저자: Lin Chen, Hossein Esf, iari

본 논문은 고차원 데이터 마이닝에서 핵심적인 문제인 근사 최근접 이웃(ANN) 탐색을 확률분포 간 거리 측정에 적용하기 위해, locality‑sensitive hashing(LSH) 기법을 f‑다이버전스와 그 일반화된 형태에 확장한다. 기존 LSH는 Hamming 거리, L₁, L₂ 등 전통적인 메트릭에 대해 풍부한 연구가 있었지만, 확률분포를 직접 다루는 정보‑이론적 거리(예: KL, JS, 헬링거 거리)에는 적용 사례가 부족했다. 저자들은 이 격차를 메우기 위해 두 가지 주요 접근법을 제시한다. 첫 번째는 f‑다이버전스 간의 근사 관계를 이용한 LSH 설계이다. 두 convex 함수 f와 g에 대해, 모든 확률분포 P, Q에 대해 f‑다이버전스와 g‑다이버전스 사이에 상수 L, U가 존재한다면, g‑다이버전스에 대한 (r₁, r₂, p₁, p₂)‑LSH가 f‑다이버전스에 대해서도 (L·r₁, U·r₂, p₁, p₂)‑LSH가 됨을 Proposition 1에서 증명한다. 이 일반 결과는 기존에 LSH가 알려진 거리(g)로부터 새로운 거리(f)를 손쉽게 다룰 수 있게 한다. 이를 구체화하기 위해 논문은 두 대표적인 f‑다이버전스, 즉 Generalized Jensen‑Shannon(GJS) 발산과 Triangular Discrimination(δ‑다이버전스)을 선택한다. GJS는 λ∈

확률분포 거리 측정을 위한 LSH: f‑다이버전스와 상호정보 손실의 새로운 해법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기