무작위 투영을 위한 효율적인 비트 코딩 설계

본 논문은 무작위 투영 결과를 저장·전송할 때 필요한 비트 수를 최소화하면서 유사도 추정 정확도를 유지하는 코딩 방식을 제안한다. 균일 양자화가 기존의 윈도우‑오프셋 방식보다 충돌 확률이 더 단조적이며 분산이 작아 1~2비트만으로도 높은 성능을 얻을 수 있음을 이론적·실험적으로 입증한다. 특히 2비트 비균일 코딩이 실용적인 성능을 제공한다는 점을 강조한다.

저자: Ping Li, Michael Mitzenmacher, Anshumali Shrivastava

본 논문은 대규모 데이터 분석에서 널리 사용되는 무작위 투영(Random Projection, RP) 기법의 후처리 단계인 코딩을 효율적으로 설계하는 방법을 제시한다. 무작위 투영은 고차원 벡터 u, v∈ℝ^D 를 정규분포를 따르는 무작위 행렬 R∈ℝ^{D×k} (k≪D)와 곱해 k 차원의 실수 벡터 x, y를 얻는 과정이다. 이때 x와 y는 실수값이므로 저장·전송 비용이 크고, 인덱싱이나 커널 연산에도 비효율적이다. 따라서 각 투영값을 비트열로 압축하는 코딩 스킴이 필요하다. **1) 기존 방법과 문제점** Datar 등

무작위 투영을 위한 효율적인 비트 코딩 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기