계층적 위상 클러스터링 알고리즘

계층적 위상 클러스터링 알고리즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 거리 함수를 자유롭게 선택할 수 있는 Vietoris‑Rips 필터레이션을 기반으로 H₀ 영속 동형을 이용해 데이터 포인트를 계층적으로 군집화하는 HTC(Hierarchical Topological Clustering) 알고리즘을 제안한다. 클러스터와 이상치의 영속성을 계층 구조에서 직접 읽어낼 수 있으며, 임의 형태의 클러스터와 의미 있는 이상치를 파라미터 튜닝 없이 탐지한다. 이미지, 의료, 경제 데이터에 적용해 기존 K‑means, 전통적 계층 군집, DBSCAN 등과 비교해 우수성을 실증한다.

상세 분석

HTC는 위상 데이터 분석(TDA)의 핵심 개념인 영속 동형(persistent homology)을 H₀ 차원에 한정해 활용한다. 먼저 사용자가 정의한 거리 함수 d에 따라 데이터 집합 X에 대한 Vietoris‑Rips 필터레이션 VR(X, r)을 구축한다. r을 0부터 데이터 직경 r_max까지 일정 간격 h로 증가시키며, 각 r에서 연결된 컴포넌트(연결된 점들의 집합)를 클러스터로 정의한다. r가 커질수록 작은 클러스터가 합쳐져 최종적으로 하나의 컴포넌트가 된다. 이 과정에서 클러스터가 합쳐지는 시점(필터링 파라미터 값)은 해당 클러스터의 “영속성”을 의미하며, 마지막에 합쳐지는 클러스터는 희소하거나 극단적인 값, 즉 의미 있는 이상치로 해석된다.

알고리즘 구현은 다음과 같다. 거리 행렬을 미리 계산하고, r_max와 r_min을 구해 M = ⌈r_max / r_min⌉ 단계로 필터링 값을 정의한다. 각 단계 m에서 현재 클러스터 집합 C_i에 대해 클러스터 간 연결 행렬 L_m을 만든다(L_m(i,j)=1이면 C_i와 C_j 사이에 거리 < r_m인 점 쌍이 존재). L_m이 이전 단계와 달라지면 깊이 우선 탐색을 통해 연결된 클러스터들을 병합하고, 병합 후 남은 클러스터 수 N_m을 기록한다. N_m이 1이 되면 종료한다. 이 절차는 클러스터 내부의 원소 추적을 가능하게 하며, 필터링 값별 클러스터 구성을 바로 얻을 수 있다.

시간 복잡도는 최악의 경우 O(M·N²)이며, 실제로는 각 단계에서 클러스터 수가 급격히 감소하므로 평균적으로는 더 낮다. 따라서 소규모·중규모 데이터셋에 적합하고, 대규모 데이터에는 밀도 기반 전처리와 결합하는 것이 현실적이다.

핵심 장점은 파라미터 의존도가 낮다는 점이다. 기존 DBSCAN은 ε와 최소 점 수 M_p 두 개의 하이퍼파라미터를 민감하게 조정해야 하지만, HTC는 거리 함수만 지정하면 필터링 단계와 클러스터 병합이 자동으로 진행된다. 또한 H₀ 영속성을 이용해 클러스터와 이상치를 동시에 파악할 수 있어, 클러스터의 형태가 비볼록이거나 복잡한 경우에도 정확히 구분한다.

실험에서는 (1) 악성·정상 세포 경계의 2차원 포인트 클라우드에서, HTC가 주요 인터페이스와 침투된 악성 섬을 명확히 구분하고, 병합 순서를 통해 악성 세포의 침투 깊이를 정량화했다. 반면 K‑means와 전통적 평균 연결 계층 군집은 형태 정보를 잃고, DBSCAN은 ε 선택에 따라 결과가 크게 달라졌다. (2) 이미지 압축 품질 평가에서는 압축 단계별 이미지들을 Wasserstein 거리로 비교하고, HTC가 압축 정도에 따른 클러스터 변화를 계층적으로 보여줌으로써 시각적 품질 저하를 정량화했다. (3) 유전자 발현 및 경제 지표 데이터에서도 의미 있는 이상치(특이한 샘플)와 자연스러운 군집을 파라미터 없이 탐지했다.

한계점으로는 거리 행렬 계산과 필터링 단계가 O(N²) 메모리를 요구한다는 점, 그리고 H₁·H₂ 이상의 위상 특성을 활용하지 않음으로써 복잡한 구멍이나 터널 구조를 포착하지 못한다는 점을 들 수 있다. 향후 연구에서는 고차원 영속 동형을 병합하거나, 근사 거리 구조(예: k‑NN 그래프)를 이용해 메모리와 계산량을 절감하는 방안을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기