지역 선형 근사 기반 스펙트럴 클러스터링
본 논문은 클러스터를 매끄러운 저차원 매니폴드 주변의 샘플링으로 모델링하고, 각 점의 지역 선형 근사 잔차를 이용한 고차원 스펙트럴 클러스터링 알고리즘을 제안한다. 이 방법은 기존의 쌍거리 기반 스펙트럴 클러스터링보다 클러스터 간 분리도와 이상치에 대한 강인성이 뛰어나며, 차원·두께에 따라 최적 파라미터를 선택하는 이론적 보장을 제공한다. 실험 결과 시뮬레이션 및 실제 데이터 모두에서 우수한 성능을 확인한다.
저자: Ery Arias-Castro, Guangliang Chen, Gilad Lerman
본 논문은 클러스터링 문제를 “매끄러운 저차원 매니폴드 주변에 점들을 샘플링한 결과”라는 생성 모델을 통해 재정의한다. 이 모델에서는 각 클러스터가 \(d\)-차원 매니폴드 \(M\)의 \(\tau\)-두께 이내에 존재하고, 클러스터 간 최소 거리 \(\Delta\)가 충분히 크면 서로 구분 가능하다고 가정한다. 또한, 실제 데이터에서는 클러스터와는 무관하게 공간 전역에 흩어져 있는 이상치(outlier)들이 존재할 수 있음을 고려한다.
### 1. 기존 방법의 한계
전통적인 스펙트럴 클러스터링(Ng‑Jordan‑Weiss, 2001)은 데이터 간 쌍거리(보통 가우시안 커널)를 이용해 그래프 라플라시안을 구성하고, 그 고유벡터를 k‑means에 입력한다. 이 접근법은 데이터가 고차원 구형(cluster) 형태일 때는 효과적이지만, 저차원 매니폴드가 고차원 공간에 얇게 퍼져 있는 경우 거리 기반 유사도가 클러스터 내부와 외부를 명확히 구분하지 못한다. 특히, 이상치가 존재하면 거리 기반 그래프가 이상치와 정상점 사이에 과도한 연결을 만들거나, 반대로 정상점 간 연결을 약화시켜 분할 품질이 크게 저하된다.
### 2. 제안 방법: 지역 선형 근사 기반 잔차 스펙트럴 클러스터링
논문은 각 데이터 포인트 \(x_i\)에 대해 이웃 집합 \(N_i\) (크기 \(k\))를 선택하고, \(N_i\)에 대한 최소제곱 선형 근사(차원 \(d\)의 부분공간) \(P_{N_i}\)를 계산한다. 그 후, 잔차
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기