위트겐슈타인 가족 유사성 클러스터링 알고리즘
초록
위트겐슈타인의 ‘가족 유사성’ 개념을 그래프 기반 클러스터링에 적용한 WFR 알고리즘을 제안한다. 인스턴스 간 유사도 점수를 계산·임계값 처리해 연결 그래프를 만든 뒤, 연결 요소를 클러스터로 정의한다. 커널 확장인 kernel WFR도 제시하여 비선형 구조를 효과적으로 탐지한다.
상세 분석
본 논문은 철학적 개념인 ‘가족 유사성(family resemblance)’을 머신러닝의 군집화 문제에 수학적으로 정형화한다는 점에서 독창적이다. 위트겐슈타인이 제시한 “공통된 핵심 속성이 아니라 겹치는 특징들의 연쇄”라는 사상을, 데이터 포인트 간의 국소적 유사도와 그 유사도가 인접한 이웃 사이에 전파되는 그래프 구조로 매핑한다. 구체적으로, 각 데이터 인스턴스 (x_i)에 대해 k‑최근접 이웃을 찾고, 이웃 쌍 ((x_i, x_j))에 대해 유사도 함수 (s(x_i, x_j))를 계산한다. 여기서 사용된 유사도는 기본적으로 유클리드 거리 기반의 가우시안 커널이지만, 논문에서는 임의의 양정밀도 커널을 삽입할 수 있는 kernel WFR을 제안한다.
유사도 점수는 사전 정의된 임계값 (\tau)와 비교되어, (s(x_i, x_j) \ge \tau)인 경우에만 무방향 엣지를 생성한다. 이렇게 형성된 ‘유사성 그래프’는 전통적인 k‑NN 그래프와는 달리, 연결성 자체가 클러스터의 정의가 된다. 즉, 그래프의 연결 요소(connected components)가 곧 군집이며, 이는 클러스터 수를 사전에 지정할 필요가 없다는 장점을 제공한다.
알고리즘의 복잡도는 주로 k‑NN 탐색과 그래프 연결 요소 탐색에 의해 결정된다. k‑NN을 효율적으로 수행하기 위해 KD‑Tree 혹은 Ball‑Tree를 활용하면 평균 (O(n \log n)) 수준을 유지할 수 있다. 연결 요소 탐색은 Union‑Find 혹은 BFS/DFS 기반으로 선형 시간 (O(|E|))에 수행된다. 따라서 전체 복잡도는 (O(n \log n + |E|))이며, 데이터 차원과 k 값에 따라 실용적인 범위 내에 머문다.
실험에서는 UCI 저장소의 여러 벤치마크(iris, wine, glass, digit 등)와 이미지 데이터셋(MNIST, Fashion‑MNIST)을 사용하였다. 평가 지표는 Adjusted Rand Index(ARI), Normalized Mutual Information(NMI), Silhouette Score 등을 적용했으며, WFR은 특히 비구형·불균형 클러스터를 포함한 데이터에서 k‑means, DBSCAN, Spectral Clustering 등을 능가하는 성능을 보였다. 특히 커널 변형인 kernel WFR은 비선형 경계가 복잡한 데이터셋에서 ARI를 10~15% 정도 향상시켰다.
한계점으로는 임계값 (\tau) 선택이 결과에 민감하다는 점이다. 논문에서는 경험적 방법(예: 평균 유사도·표준편차 기반)으로 (\tau)를 설정했지만, 자동화된 파라미터 튜닝 메커니즘이 부재하다. 또한 고차원 희소 데이터에서는 거리 기반 유사도가 의미를 잃을 위험이 있어, 차원 축소 혹은 특수 커널 설계가 필요할 수 있다. 향후 연구에서는 (\tau)를 데이터 자체에서 최적화하는 베이지안 최적화 혹은 메타러닝 접근, 그리고 그래프 신경망(GNN)과 결합한 하이브리드 모델을 탐색할 여지가 있다.
요약하면, WFR은 철학적 개념을 수학적 그래프 모델에 매핑함으로써, 클러스터 수와 형태에 대한 사전 가정을 완화하고, 커널 확장을 통해 비선형 구조까지 포괄하는 유연한 군집화 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기