SDP 기반 k‑평균 클러스터링의 정확성 한계와 새로운 복원 조건
초록
본 논문은 반경 1인 k개의 구가 충분히 떨어져 있을 때, 각 구 안에서 회전 불변 분포로 뽑힌 n개의 점들에 대해 SDP 완화 k‑means가 정확히 원래 클러스터를 복원한다는 것을 증명한다. 구 중심 간 거리가 2+ε(ε는 구 배치와 차원에 따라 명시적으로 정의)보다 크면, 성공 확률이 1‑e^{‑Ω(n)}이다. 차원이 커질수록 ε는 거의 0에 가까워진다.
상세 분석
이 연구는 최근 Awasthi 등이 제안한 k‑means의 반정밀도(semidefinite programming, SDP) 완화가 실제 데이터에 얼마나 강인한지를 정량적으로 밝힌다. 저자들은 “stochastic ball model”이라 부르는 확률적 입력을 정의한다. 구의 중심 γ₁,…,γ_k가 ℝ^m에 고정되고, 각 구 안에서는 회전 불변 확률분포 D(단위 구 위)에서 독립적으로 n개의 샘플 r_{a,i}를 뽑아 x_{a,i}=γ_a+r_{a,i}를 만든다. 핵심 질문은 “SDP 해가 원래 군집 지시자 행렬 X=∑ₐ(1/n_a)1_{C_a}1_{C_a}ᵀ와 동일해지는가?”이다.
논문은 먼저 k‑means 문제를 행렬 형태(2)로 변형하고, 이를 SDP(3)로 완화한다. 이때 목적함수는 –Tr(DX)이며, 제약은 Tr(X)=k, X1=1, X⪰0, X≥0이다. 표준 원뿔 이중성 이론을 이용해 dual 문제(6)를 도출하고, dual 변수들을 (z,α,β)로 표기한다. 중요한 관찰은 α가 z에 의해 완전히 결정되며, 자유 변수는 스칼라 z와 비음수 대칭 행렬 β뿐이라는 점이다.
다음 단계에서는 Q:=A^*y–c = z(I–E)+M–B 형태로 표현한다. 여기서 E는 클러스터 크기 비율에 의해 정의된 저차원 행렬이며, rank(E)∈{1,2}이고 가장 큰 고유값 λ≥k이다. M는 데이터 거리 행렬 D와 클러스터 내 평균 거리 정보를 결합한 항이며, B=½β는 β의 비음수성을 보장하기 위해 설계된 행렬이다. 저자들은 Q⪰0가 되도록 z와 B를 선택하는 조건을 분석한다. 특히 Q·1_a=0 (∀a)라는 강제조건을 도입해 Λ=span{1_a}를 Q의 영공간에 포함시킨다. 이때 z는 가능한 최대값으로 잡히며, 식 (13)·(15)에서 제시된 상한에 의해 결정된다. B는 u(a,b)=M(a,b)·1 – z·(n_a+n_b)/(2n_a)·1 로 정의하고, ρ(a,b)=u(a,b)·1 를 정규화해 B(a,b)=u(a,b)u(b,a)ᵀ/ρ(b,a) 로 구성한다. 이렇게 하면 B는 대칭이며 비음수성을 유지한다.
Deterministic condition (15)은 “k·‖P_{Λ⊥}(M–B)P_{Λ⊥}‖₂ ≤ 2” 로 요약된다. 이를 만족하면 X가 SDP 최적해이며 동시에 원래 군집 지시자와 일치한다. 이후 저자들은 확률론적 분석을 수행한다. 회전 불변 분포 D의 순간(특히 평균 0, 공분산 I/m)과 구 중심 간 최소 거리 Δ>2+ε를 가정하면, M–B의 고유값이 위 조건을 만족할 확률이 1–e^{‑Ω(n)}임을 보인다. ε는 구 중심들의 상대 위치에 따라 정의된 함수 Cond(γ)=max_{a≠b}‖γ_a–γ_b‖₂ / min_{a≠b}‖γ_a–γ_b‖₂ 로 표현되며, 차원 m이 커질수록 Cond(γ)→1이므로 ε→0가 된다. 따라서 “Δ>2+ε”는 사실상 최적 분리 한계 Δ>2에 근접한다.
실험적으로 저자들은 m=6, D를 단위 구의 균등분포로 잡고, 다양한 Δ에 대해 30번의 시뮬레이션을 수행했다. Figure 1은 제안된 dual 인증서가 기존
댓글 및 학술 토론
Loading comments...
의견 남기기