다차원 척도법과 지역 커널에서 나타나는 말굽 현상의 수학적 해석
본 논문은 2005년 미국 하원의원 투표 데이터를 다차원 척도법(MDS)으로 시각화하면서 나타나는 “말굽”(horseshoe) 형태를 이론적으로 분석한다. 저자들은 근거리 거리만 정확히 알 수 있는 상황에서 데이터가 일차원 순서(좌‑우 스펙트럼) 구조를 가질 경우 말굽 모양이 자연스럽게 발생한다는 일반적 정리를 제시하고, 이를 설명하기 위해 연속적인 구간
저자: Persi Diaconis, Sharad Goel, Susan Holmes
본 논문은 다차원 척도법(Multidimensional Scaling, MDS)과 지역 커널 방법이 데이터에 내재된 일차원 순서 구조를 저차원 유클리드 공간에 투영할 때 나타나는 전형적인 “말굽”(horseshoe) 현상을 수학적으로 분석한다. 연구 동기는 2005년 미국 하원의원(435명)의 롤콜 투표 데이터를 MDS로 시각화했을 때, 3차원 공간에서 두 개의 말굽 모양이 형성되고, 색상으로 구분한 정당(민주당·공화당·무소속) 구분이 뚜렷하게 나타나는 현상이다. 저자들은 이 현상이 단순히 데이터의 우연이 아니라, 데이터가 일차원 순서(좌‑우 스펙트럼) 구조를 가지고 있을 때, 특히 근거리 거리만 정확히 알 수 있는 상황에서 자연스럽게 발생한다는 일반적 원리를 제시한다.
1. **데이터와 초기 거리 정의**
- 2005년 하원의원 롤콜 데이터는 401명의 의원(90% 이상 참여)과 669개의 투표(두 개 제외)로 구성된다.
- 각 의원 i와 j 사이의 경험적 거리 \(\hat d(l_i,l_j)=\frac{1}{669}\sum_{k=1}^{669}|v_{ik}-v_{jk}|\)는 두 의원이 서로 다른 선택을 한 투표 비율을 나타낸다.
- 이 거리 행렬은 “근거리 정보가 정확하다”는 가정을 반영하기 위해 지수 변환 \(P(i,j)=1-\exp(-\hat d(l_i,l_j))\) 로 변환된다. 작은 거리에서는 거의 동일하고, 큰 거리에서는 급격히 억제된다.
2. **MDS와 커널 PCA 절차**
- 변환된 거리 행렬 \(P\)를 제곱하고 이중 중심화 \(S=-\frac12 H D^2 H\) (여기서 \(H=I-\frac{1}{n}\mathbf{1}\mathbf{1}^\top\)) 를 수행해 내적 행렬을 얻는다.
- \(S\)를 고유분해하여 상위 3개의 고유벡터와 고유값을 선택, 이를 통해 3차원 좌표를 복원한다.
- 논문은 또한 지수 커널 \(k(x_i,x_j)=\exp(-\theta\|x_i-x_j\|^2)\) 를 사용한 커널 PCA와 MDS가 동일한 고유함수를 공유함을 보인다.
3. **컷‑포인트 모델**
- 입법자를 구간 \(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기