커널 기반 해시를 활용한 반지도형 병합 군집화

본 논문은 대규모 데이터에 적용 가능한 효율적인 병합형 군집화 방법을 제안한다. 기존의 병합형 군집화는 모든 데이터 쌍에 대해 거리 계산을 수행해야 하므로, 데이터 차원과 샘플 수가 증가할수록 계산 비용이 급격히 상승한다. 이를 해결하기 위해 저자들은 두 가지 전략을 도입한다. 첫 번째는 제한된 라벨 정보를 이용한 거리 메트릭 학습이다. 동일 클래스 쌍은 거리 를 최소화하고, 다른 클래스 쌍은 일정 수준 이상 떨어지도록 하는 제약 최적화를 수행한다. 양의 반정치 행렬 A를 학습함으로써, 원 데이터 공간을 A‑거리 기반 커널 공간으로 변환한다. 이 과정은 Xing et al.(2002)의 거리 메트릭 학습과 동일한 목적 함수를 사용하지만, 여기서는 A를 커널화된 RBF 거리 계산에 직접 적용한다. 두 번째는 커널화된 지역민감 해시(Kernelized Locality‑Sensitive Hashing, KLSH)이다. 무작위로 선택된 p개의 샘플을 중심으로 RBF 커널 K(i,j)=exp(−d_A(x_i,x_j)^2/σ^2)를 구성하고, 특이값 분해(SVD)를 통해 K^{-1/2}를 얻는다. 이후 무작위 t차원 표준벡터 e_s에 대해 w=K^{-1/2}e_s를 계산하고, 임의의 데이터 x에 대해 h(x)=sign(∑_{i=1}^p w_i k(x,x_i)) 로 1비트를 생성한다. 이 과정을 반복해 32비트(또는 사용자가 지정한 길이)의 해시코드를 만든다. KLSH는 원 데이터의 근접성을 높은 확률로 보존하면서, 해시 비트열 간 해밍 거리를 이용해 빠르게 근접성을 평가할 수 있다. 제안된 군집화 알고리즘은 다음과 같다. (1) 제한된 라벨 데이터를 이용해 거리 메트릭 A를 학습한다. (2) A‑거리 기반 KLSH 테이블을 구축한다. (3) 초기에는 각 샘플을 개별 클러스터로 두고, 클러스터 간 해밍 거리를 계산해 가장 가까운 두 클러스터를 병합한다. (4) 병합 과정에서 해시 테이블을 업데이트하고, 지정된 클러스터 수 k에 도달하거나 불일치 계수가 임계값을 초과하면 종료한다. (5) 최종 클러스터에 속한 실제 데이터 인스턴스를 KLSH 테이블에서 역조회한다. 실험은 손글씨 숫자 이미지 데이터셋인 MNIST을 사용하였다. 10개의 클래스(0~9)와 최대 50,000개의 샘플을 대상으로, 네 가지 방법을 비교했다. (①) 기본 K‑Means, (②) K‑Means + 거리 메트릭 학습, (③) KLSH 기반 병합형 군집화, (④) KLSH + 거리 메트릭 학습. 평가 지표는 정밀도, 재현율, 실행 시간이다. 결과는 다음과 같다. 정밀도는 K‑Means와 비슷하거나 약간 향상되었으며, KLSH만 사용할 경우 재현율이 약 2배 낮아졌다. 그러나 거리 메트릭 학습을 결합하면 재현율이 크게 회복되었다. 실행 시간은 KLSH 기반 방법이 0.5~0.6초에 불과했으며, K‑Means는 약 500초로, 두 방법 간 차이가 3~4 orders of magnitude에 달했다. 클래스 수를 늘려도 정밀도는 크게 변하지 않았으며, 재현율은 약간 감소했다. 해시 비트 길이를 늘릴수록 정밀도와 재현율 모두 상승했지만, 계산 비용도 비례적으로 증가했다. 논문의 주요 기여는 (1) 제한된 라벨을 활용한 거리 메트릭 학습을 통해 반지도형 군집화의 정확성을 확보하고, (2) KLSH를 이용해 거리 계산을 해밍 거리로 대체함으로써 병합형 군집화의 시간 복잡도를 실질적으로 선형에 가깝게 낮춘다. 한계점으로는 해시 근사 특성상 일부 근접 이웃을 놓쳐 재현율이 감소한다는 점이다. 향후 연구에서는 다중 해시 테이블, 적응형 비트 길이, 혹은 해시와 정확한 거리 계산을 혼합하는 하이브리드 전략을 통해 정확도와 효율성 사이의 트레이드오프를 더욱 최적화할 수 있을 것으로 기대한다.

커널 기반 해시를 활용한 반지도형 병합 군집화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기