클래식 MDS에서 모든 양의 고유벡터 사용은 최적이 아니다
클래식 다차원 척도법(Classical MDS)은 거리 행렬을 이중 중심화한 후 고유분해를 수행한다. 음의 고유값이 존재하면 관례적으로 양의 고유값만 취해 차원을 선택하는데, 이는 중심화된 거리 행렬에 대한 최소제곱 오차만 최소화한다. 본 논문은 실제 거리 행렬에 대한 오차를 고려하면 일부 양의 고유벡터를 버리는 것이 오히려 전체 오차를 줄일 수 있음을 보이고, 이를 위한 두 가지 개선 알고리즘을 제시한다. 실험 결과는 기존 방법이 비유클리드 …
저자: Jeffrey Tsang, Rajesh Pereira
본 논문은 클래식 다차원 척도법(Classical Multidimensional Scaling, MDS)의 핵심 수학적 가정과 실제 적용 시 발생하는 문제점을 체계적으로 분석하고, 기존 관행을 대체할 수 있는 두 가지 최적화 방법을 제시한다.
1. **배경 및 문제 정의**
클래식 MDS는 거리 행렬 D(제곱 거리)를 이중 중심화하여 B = −½·JDJ 로 변환하고, B 를 고유분해 B = VΛVᵀ 로 나타낸다. B 가 양정정(positive semidefinite) 일 경우, Λ의 양의 고유값을 제곱근해 X = VΛ^{1/2} 로 좌표를 복원하면 원본 거리와 완벽히 일치한다. 그러나 실제 데이터는 비유클리드 거리(예: 삼각 부등식 위반) 를 포함하는 경우가 많아 B 에 음의 고유값이 나타난다. 전통적인 해결책은 음의 고유값을 0 으로 클램프하고, 양의 고유값에 대응하는 고유벡터만 사용해 X 를 구성하는 것이다. 이는 B−XXᵀ 의 Frobenius 노름 ‖B−XXᵀ‖_F² 를 최소화하지만, 최종 목표인 원본 거리 행렬 D 와의 차이 ‖D̂−D‖_F² 를 최소화하지 않는다.
2. **오차식 전개**
논문은 D̂ 를 X 로부터 재구성된 거리 행렬로 정의하고, 이를 Φ(XXᵀ)J+JΦ(XXᵀ)−2XXᵀ 로 표현한다. 여기서 Φ는 대각 원소만 남기는 연산자이다. B 와 D̂ 의 차이를 전개하면 다음과 같은 형태가 얻어진다.
L(X) = 2∑_i r_{ii}² + 2(tr R)² + 4‖R‖_F², R = B−XXᵀ.
첫 번째 항은 잔차 행렬 R 의 대각 원소 제곱합, 두 번째 항은 트레이스 제곱, 세 번째 항은 전체 Frobenius 노름이다. 기존 방법은 세 번째 항만 최소화하고, 앞의 두 항을 무시한다. 그러나 트레이스 항은 양의 고유값을 모두 보존하면 크게 양수이며, 전체 오차를 증가시킨다. 따라서 “모든 양의 고유벡터를 사용한다”는 직관은 실제 거리 복원 오차를 최소화하지 않는다.
3. **오차 상·하한**
첫 번째 항을 직접 다루기 어려우므로, 논문은 이를 대각 원소를 동일하게 배치하거나, 오프‑대각 원소를 일정하게 설정하는 두 극단적인 경우를 통해 상·하한을 구한다. 결과적으로
4(tr R)² + 4‖R‖_F² ≤ L(X) ≤ 2(tr R)² + (2+2n)‖R‖_F²
라는 식을 얻으며, 이 경계는 정규 단순체(모든 거리 1)에서 정확히 달성된다.
4. **제안 알고리즘**
- **임계값 기반 클램프 방법**
고유값을 일정 임계값 c 로 조정한다. 재구성된 고유값 λ₀_i = max(λ_i−c, 0) 로 두고, c 를 선택해 위·하한을 최소화한다. c 를 변화시키면 λ₀_i 가 선형적으로 변하므로 구간별 2차식 최소화로 최적 c 를 찾을 수 있다. 이 과정은 O(n³) 의 고유분해와 동일한 복잡도를 가진다.
- **제약 이차 프로그램(QP) 방법**
L(X)를 λ₀_i 에 대한 2차식으로 표현하고, λ₀_i ≥ 0 라는 제약만 추가하면 볼록 최적화 문제가 된다. 구체적으로 L(X) = λ₀ᵀQλ₀ + cᵀλ₀ + const 형태이며, Q는 양정정 행렬이다. 표준 QP 솔버로 전역 최적 해를 구하면, 기존 방법보다 항상 낮은 L(X) 값을 얻는다. 이 역시 고유분해 단계와 같은 차수의 연산량을 요구한다.
5. **실험**
296×296 크기의 비유클리드 거리 행렬(총 103개의 양의 고유값)을 사용하였다. 기존 “모든 양의 고유벡터 사용” 방법은 차원을 늘릴수록 오차가 증가했으며, 103 차원을 모두 사용해도 3~5 차원만 사용할 때보다 오차가 크게 나았다.
- **하한 최적화**: 10 차원 사용 시 기존 대비 14% 오차 감소.
- **QP 최적화**: 16 차원 사용 시 18% 오차 감소.
흥미롭게도 QP 해는 11번째, 13번째, 15~18번째 고유벡터를 제외하고, 246번째와 258번째(원래는 음의 고유값)만을 거의 0에 가까운 양의 값으로 재구성해 사용했다. 이는 “양의 고유값만 사용하면 된다”는 직관을 깨뜨린다.
6. **소프트웨어 현황**
MATLAB과 R 은 여전히 음의 고유값이 존재할 경우 모든 양의 고유벡터를 그대로 사용하도록 구현돼 있다. 논문은 이러한 구현이 비유클리드 데이터에 대해 서브옵티멀한 결과를 초래한다는 점을 강조한다.
7. **결론 및 의의**
클래식 MDS에서 음의 고유값이 존재할 때, 기존의 “양의 고유벡터 전부 사용” 전략은 실제 거리 복원 오차를 최소화하지 않는다. 제안된 두 알고리즘은 동일한 계산 복잡도 내에서 더 낮은 오차를 달성하며, 차원 선택과 고유값 처리에 대한 새로운 기준을 제공한다. 이는 비유클리드 거리 데이터를 다루는 다양한 분야(생물학, 신경과학, 사회과학 등)에서 MDS 적용 시 보다 정확한 저차원 임베딩을 가능하게 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기