안정적 랜덤 투영을 이용한 차원 축소를 위한 효율적인 추정기

본 논문은 안정적 랜덤 투영을 통해 고차원 데이터의 \(l_{\alpha}\) 거리( \(0<\alpha\le 2\) )를 저차원으로 압축한 뒤, 거리 스케일 파라미터를 추정하는 새로운 “최적 분위수 추정기”를 제안한다. 기존의 기하 평균·조화 평균·분수 거듭제곱 기반 추정기에 비해 선택 연산만으로 구현돼 계산량이 크게 감소하고, \(\alpha>1\) 구간에서 정확도와 지수형 꼬리 확률 경계에서도 우수함을 보인다. 실험 결과는 기존 방법 대비…

저자: Ping Li

본 논문은 고차원 데이터의 \(l_{\alpha}\) 거리( \(0<\alpha\le2\) )를 효율적으로 추정하기 위해 안정적 랜덤 투영(stable random projections)이라는 차원 축소 기법을 재조명한다. 데이터 행렬 \(A\in\mathbb{R}^{n\times D}\) 에 대해, 각 원소가 대칭 안정적 분포 \(S(\alpha,1)\) 에서 추출된 무작위 행렬 \(R\in\mathbb{R}^{D\times k}\) (\(k\ll D\))와 곱해 \(B=A R\) 를 얻는다. 두 원본 벡터 \(u_{1},u_{2}\) 의 차이 \(x_j=v_{1,j}-v_{2,j}\) 는 i.i.d. \(S(\alpha,d(\alpha))\) 분포를 따르며, 여기서 \(d(\alpha)=\sum_{i=1}^{D}|u_{1,i}-u_{2,i}|^{\alpha}\) 가 바로 \(l_{\alpha}\) 거리이다. 따라서 거리 추정은 \(k\) 개의 샘플 \(x_j\) 로부터 스케일 파라미터 \(d(\alpha)\) 를 추정하는 통계 문제로 귀결된다. 기존 연구에서는 (i) 기하 평균 추정기, (ii) 조화 평균 추정기, (iii) 분수 거듭제곱 추정기 등을 제안했으며, 모두 \(|x_j|^{\alpha/k}\)와 같은 비정수 거듭제곱 연산을 필요로 한다. 이러한 연산은 CPU/GPU에서 비용이 크고, 특히 \(n^{2}\) 쌍을 동시에 처리해야 할 때 전체 실행 시간이 급격히 늘어나는 단점이 있다. 이에 저자는 “최적 분위수 추정기”(optimal quantile estimator)를 도입한다. 절대값 샘플 \(|x_j|\)의 \(q\)‑분위수( \(q\)-quantile) 를 구하고, 이를 \(\alpha\) 제곱하여 스케일 파라미터를 추정한다. 구체적으로 \

안정적 랜덤 투영을 이용한 차원 축소를 위한 효율적인 추정기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기