거의 선형 시간 데이터 의존 커널
초록
**
본 논문은 반지도 학습에서 사용되는 데이터 의존 커널을 기존의 O(n³) 복잡도에서 거의 선형 시간(O(n log n))으로 계산할 수 있도록 근사화하는 방법을 제안한다. 전체 데이터 집합을 작은 서브샘플에 제한하고, 그 서브샘플에 대한 정규화 행렬의 의사역행렬을 이용해 전체 데이터에 대한 스무딩 효과를 보존한다. 그래프 라플라시안 등 희소 대각우선 행렬을 정규화 연산자로 사용하면 최신 SDD 솔버를 통해 근사 커널을 빠르게 얻을 수 있다. 실험에서는 64,000개까지의 데이터에 대해 기존 LapSVM 대비 비슷하거나 더 좋은 성능을 보이며, 계산 시간은 크게 단축된다.
**
상세 분석
**
이 논문은 반지도 학습에서 핵심적인 역할을 하는 데이터 의존 커널의 계산 복잡도를 근본적으로 낮추는 두 단계 접근법을 제시한다. 첫 번째 단계는 기존 방법이 모든 n개의 샘플에 대해 정의된 정규화 행렬 Q(예: 그래프 라플라시안)를 그대로 사용하되, 함수값을 측정하는 포인트를 b ≪ n개의 서브샘플 bXₛ에 제한한다는 아이디어다. 서브샘플에 대한 측정값 bh를 Q⁺(의사역행렬)를 이용해 전체 데이터에 대한 최소 반노름 보간 함수 h로 확장하고, reg_Q(h)를 근사 정규화 항으로 채택한다. 이렇게 하면 정규화 항이 전체 데이터 구조를 반영하면서도 측정 비용은 b에만 의존한다. 두 번째 단계는 b × b 크기의 정규화 행렬 bQ를 Q⁺의 서브행렬에 의사역을 취해 정의하고, 이를 근사하기 위해 최신 거의 선형 시간 SDD(대각우선 대칭) 선형 시스템 솔버를 활용한다. 이때 복잡도는 O(b · s log n (log log n)² log 1/ε + b² n)이며, s는 Q의 비영 제로 원소 수이다. 이론적으로는 Theorem 3.1·3.2를 통해 bQ가 전체 정규화 연산을 정확히 대체함을 보이고, 베이지안 관점에서는 Q⁺가 공분산인 가우시안 프로세스의 사후 평균과 동일함을 설명한다. 실험에서는 작은 데이터셋에서 LapSVM과 거의 동일한 정확도를, 대규모 데이터셋에서는 RBF 커널이나 단순 “예산” LapSVM보다 현저히 높은 정확도와 빠른 학습 시간을 기록한다. 따라서 이 방법은 반지도 학습뿐 아니라 커널 기반 클러스터링 등 다양한 커널 방법에 적용 가능한 범용적인 스케일업 솔루션으로 평가할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기