이차원 투영 깊이 등고선과 중앙값의 정확한 계산 방법

본 논문은 다변량 데이터의 중심‑외곽 순서를 제공하는 투영 깊이(Projection Depth, PD)의 실용적 계산 문제를 다룬다. 기존 연구에서는 PD가 무한히 많은 방향벡터에 대한 supremum을 필요로 하여 계산이 비현실적이었다. Zuo와 Lai(2011)는 2차원 데이터에 대해 (Med, MAD) 를 위치·규모 추정치로 사용할 경우, 실제로는 유한 개의 방향만 고려하면 된다는 점을 보였지만, 그 방법을 고차원으로 확장하는 일반적인 이론은 제시되지 않았다. 저자들은 먼저 PD의 정의와 outlyingness 함수 O(x,F)를 재정의한다. (Med, MAD) 를 사용하면 Q(u,x,F) 가 u에 대해 홀수함수이므로 절대값을 제거하고, O(x,F)=sup_{‖u‖=1}Q(u,x,F) 로 단순화한다. 데이터가 일반 위치에 있다고 가정하면, 단위 구면 S를 유한 개의 조각 S_k 로 나눌 수 있다. 각 조각마다 두 순열 (i_1,…,i_n) 와 (j_1,…,j_n) 이 고정되며, 이 순열에 의해 투영값들의 순서와 중앙값·MAD가 정의된다. 이렇게 하면 Q(u,x) 가 다음과 같은 선형/분수 형태로 표현된다. - n이 홀수일 때: \(Q(u,x)=\frac{u^{\top}(x-X_{i_k,m})}{|u^{\top}(X_{j_k,m}-X_{i_k,m})|}\) - n이 짝수일 때: 중앙값 사이 평균을 사용한 복합식. 이 식은 선형 분수 함수계획 문제 \(\max_z \frac{c_k^{\top}z}{d_k^{\top}z}\) subject to \(A_k z\ge0\) 로 변환된다. Swarup(1962)의 정리에 따라 최적값은 제약식의 기본 feasible solution에서만 발생한다. 따라서 전체 sup를 구하기 위해 필요한 방향벡터는 각 조각마다 하나씩, 즉 총 N≤O(n^{p-1}) 개만이면 된다. 중요한 점은 이 방향벡터들이 데이터 클라우드에만 의존하고 x와 무관(x‑free)하다는 것이다. 한 번 계산해 두면 모든 x에 대해 O(x) 를 빠르게 평가할 수 있다. 다음 단계에서는 O(x) 를 최대 M개의 선형 함수 \(g_i(x)=a_i^{\top}x-b_i\) 의 최대값 형태로 나타낸다. 여기서 \(a_i = \frac{1}{\text{MAD}(u_i^{\top}X)}u_i\), \(b_i = \frac{\text{Med}(u_i^{\top}X)}{\text{MAD}(u_i^{\top}X)}\) 이다. 따라서 O(x) 는 piecewise‑linear convex 함수이며, 최소화 문제 \(\min_x O(x)\) 는 선형 프로그래밍으로 정확히 풀 수 있다. 최적 해 x*는 투영 중앙값(PM)이며, 깊이 값은 \(PD(x*) = 1/(1+O(x*))\) 로 얻는다. 깊이 등고선 \(PC(\alpha)\) 은 \(\{x: O(x)\le\beta\}\) 로 정의되며, 이는 \(g_i(x)\le\beta\) (i=1,…,M) 라는 선형 부등식들의 교집합이다. 따라서 등고선 영역은 다각형(다면체)이며, 경계는 다각형 정점들의 연결으로 구한다. 정점 열거는 Matlab의 con2vert 함수와 같은 다면체 정점 열거 알고리즘을 이용한다. M이 매우 클 경우 대부분의 부등식이 중복되므로, 비중복 제약을 사전 제거하는 절차를 제안한다. 이는 연속된 제약 집합 C_k 를 찾아 최소 p개의 제약만 남기면 충분함을 보이는 기하학적 논증에 기반한다. 실험에서는 두 가지 시뮬레이션을 수행한다. 첫 번째는 n=60, 표준 정규분포에서 5% 확률로 첫 번째 좌표를 6으로 바꾼 데이터; 두 번째는 n=400, 공분산 행렬 \(\Sigma_0=

이차원 투영 깊이 등고선과 중앙값의 정확한 계산 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기