고차원 Lp 거리 근사를 위한 랜덤 프로젝션 기법

본 논문은 짝수 차수 p > 2인 Lp 거리 계산을, 데이터 행별 마진 노름은 정확히 구하고 나머지 교차항을 정규·서브가우시안 랜덤 프로젝션으로 추정하는 방법을 제안한다. 하나의 투영 행렬을 쓰는 기본 전략과 p‑1개의 독립 행렬을 쓰는 대체 전략을 비교하고, 특히 p = 4일 때 비음수 데이터에서는 기본 전략이 더 정확함을 이론·실험적으로 입증한다.

저자: Ping Li

이 논문은 대규모 고차원 데이터 행렬 A∈ℝ^{n×D} 에서 짝수 차수 p>2인 Lp 거리 ‖x‑y‖_p 를 효율적으로 근사하는 새로운 방법을 제안한다. 기존에 02에서는 직접 적용이 불가능하였다. 저자는 p가 짝수일 때 거리 제곱을 마진 ‖x‖_p^p , ‖y‖_p^p 와 p‑1개의 교차 “내적” 항으로 정확히 분해할 수 있음을 이용한다. 구체적으로 p=4인 경우, 거리 제곱은 d₄ = Σ_i x_i⁴ + Σ_i y_i⁴ + 6 Σ_i x_i² y_i² − 4 Σ_i x_i³ y_i − 4 Σ_i x_i y_i³ 로 전개된다. 여기서 Σ_i x_i⁴ 와 Σ_i y_i⁴ 은 선형 스캔으로 O(D) 시간에 정확히 계산 가능하고, 나머지 세 교차항은 고차원 곱셈을 요구한다. 저자는 이러한 교차항을 정규(또는 서브가우시안) 난수 행렬 R∈ℝ^{D×k} 로 투영한 벡터 u_j = Σ_i x_i^j r_{ij}, v_j = Σ_i y_i^j r_{ij} (j=1,2,3) 로 압축한다. 그 후 uᵀv 형태의 내적을 이용해 교차항을 무편향 추정한다. 두 가지 투영 전략을 제시한다. 1. **기본 전략 (Basic Projection Strategy)**: 하나의 행렬 R만 사용한다. u₁, u₂, u₃, v₁, v₂, v₃ 를 모두 동일한 R 로부터 얻어, 추정식 \hat d₄ = Σ_i x_i⁴ + Σ_i y_i⁴ + (1/k)

고차원 Lp 거리 근사를 위한 랜덤 프로젝션 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기