최근접 이웃 분류를 위한 메트릭 임베딩 이론과 실험

본 논문은 임의의 거리 공간을 유클리드 공간에 임베딩하여 최근접 이웃(NN) 분류 성능을 향상시키는 이론적 프레임워크를 제시한다. 재생 커널 힐베르트 공간(RKHS)에서 정규화를 적용하고, 대표성 정리를 증명한 뒤 반정밀도(SDP) 형태의 최적화 문제로 변환한다. 이 SDP는 소프트 마진 선형 SVM과 구조적으로 연결되며, 실험적으로 Mahalanobis 거리 학습보다 우수한 leave‑one‑out 및 일반화 오류를 보인다.

저자: Bharath K. Sriperumbudur, Gert R. G. Lanckriet

본 논문은 최근접 이웃(NN) 분류에서 거리 메트릭이 차지하는 핵심적인 역할을 재조명하고, 기존의 유클리드 거리 가정이나 Mahalanobis 거리 학습을 넘어선 새로운 접근법을 제시한다. 저자들은 “임의의 메트릭 공간을 어떻게 유클리드 공간에 임베딩하여 NN 분류 성능을 향상시킬 수 있는가”라는 문제를 정의하고, 이를 해결하기 위한 이론적·실험적 프레임워크를 전개한다. 첫 번째 단계는 문제를 재생 커널 힐베르트 공간(RKHS) 내에서 정규화된 손실 함수 형태로 재구성하는 것이다. 구체적으로, 훈련 데이터 \(\{(x_i, y_i)\}_{i=1}^n\)와 임베딩 함수 \(\phi: \mathcal{X}\rightarrow\mathbb{R}^d\)를 고려하고, NN 분류의 오류를 최소화하는 동시에 \(\|\phi\|_{\mathcal{H}}\)와 같은 정규화 항을 포함한 목적함수를 정의한다. 여기서 \(\mathcal{H}\)는 선택된 커널 \(k(\cdot,\cdot)\)에 대응하는 RKHS이다. 핵심 이론적 기여는 **대표자 정리(representer‑like theorem)** 의 증명이다. 이 정리는 최적 임베딩 \(\phi^\*\)가 훈련 샘플들의 커널 값들에 대한 선형 결합 형태, \

최근접 이웃 분류를 위한 메트릭 임베딩 이론과 실험

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기