깊이 기반 지역 중심 클러스터링: 다양한 군집 시나리오를 위한 새로운 프레임워크
초록
본 논문은 데이터 깊이(depth)를 활용해 지역별 중심점을 추출하고, 이를 기반으로 유연한 군집을 형성하는 Depth‑Based Local Center Clustering(DLCC) 알고리즘을 제안한다. 전역 깊이만으로는 다중모드 구조를 포착하기 어려운 점을 보완하기 위해 각 관측치 주변의 부분집합에 대한 국부 깊이를 계산해 유사도 행렬을 구성한다. 이후 국부 중심을 필터링·그룹화하고, 라벨 전파 과정을 통해 최종 군집을 얻는다. 공간 깊이(spatial depth)를 구현 예로 사용했으며, 계산 효율성을 높이기 위한 행렬 기반 구현과 비볼록·다중밀도 데이터에 대한 실험 결과를 제시한다.
상세 분석
DLCC는 기존 군집 방법이 갖는 ‘대표점(exemplar)’ 정의의 한계를 깊이 함수를 통해 재해석한다. 데이터 깊이는 다변량 분포에서 중심‑외부 순서를 제공하지만, 전역 깊이만으로는 다중 피크를 가진 데이터의 구조를 드러내지 못한다. 이를 해결하기 위해 저자들은 각 샘플 xᵢ에 대해 반사된 데이터 집합 X_Rᵢ = X ∪ {2xᵢ − xⱼ | j≠i}를 구성하고, xᵢ가 이 집합의 깊이 중앙값이 되도록 한다. 이렇게 정의된 국부 깊이 D(xⱼ | X_Rᵢ) 는 xᵢ와 xⱼ 사이의 비대칭 유사도 Sᵢⱼ 를 제공한다. 전체 n × n 유사도 행렬 S는 전통적인 거리 기반 행렬과 달리 데이터의 기하학적 특성을 자동으로 반영한다.
계산량 측면에서 직접적인 깊이 평가를 n번 반복하면 O(n²d) 정도의 복잡도가 발생한다. 논문은 공간 깊이 SD(z|X)=1−(1/n)∑‖z−xᵢ‖/‖z−xᵢ‖ 의 형태를 이용해 행렬 연산으로 변환함으로써 GPU 가속 및 메모리 효율성을 크게 개선한다. 구체적으로, 반사점 집합을 행렬 E, Ē 로 표현하고, S = 1−(1/n)·(‖X−Xᵀ‖) 와 같은 형태로 구현한다.
유사도 행렬이 구축되면, 각 관측치 xᵢ에 대해 상위 s 개의 가장 깊은 이웃 Nᵢ 를 선택한다. Nᵢ 내부에서 깊이 순위 rᵢ(xⱼ) 가 최소인 점을 ‘지역 중심(local center)’ c 으로 정의한다. 이러한 지역 중심은 데이터의 다중 피크를 자연스럽게 포착한다. 이후 두 단계의 필터링이 진행된다. 첫 번째는 중심 간 중복을 제거하기 위해 중심 간 거리(또는 유사도) 기준으로 가장 깊은 중심만 남기는 과정이며, 두 번째는 남은 중심들을 유사도 행렬 M (지역 중심 전용) 기반의 군집화(예: 계층적 병합 또는 DBSCAN 변형)로 그룹화한다. 최종 군집 라벨은 그룹화된 중심에 속한 원본 샘플을 라벨 전파(label propagation) 방식으로 할당한다.
DLCC의 주요 장점은 다음과 같다. ① 거리·밀도에 의존하지 않고 데이터 자체의 중심‑외부 구조를 이용하므로 고차원·비구형 데이터에서도 강인성을 보인다. ② 지역 중심 수가 데이터 복잡도에 따라 자동 조정되므로 사전에 군집 수를 지정할 필요가 적다. ③ 깊이 함수 선택이 자유롭다(본 논문은 공간 깊이를 사용했지만, 반평면 깊이, Mahalanobis 깊이 등도 적용 가능)하여 다양한 도메인에 맞춤형 적용이 가능하다.
실험에서는 2차원·3차원·고차원(>100) 합성 데이터와 UCI, 이미지, 유전자 발현 등 실제 데이터셋을 사용했다. 비구형·다중밀도·노이즈가 섞인 경우, k‑means·DBSCAN·Spectral Clustering 대비 ARI·NMI 점수가 평균 10~15% 향상되었으며, 특히 클러스터 간 밀도 차이가 클 때 DLCC가 가장 큰 이점을 보였다. 계산 시간은 행렬 기반 구현 덕분에 n≈10⁴ 수준에서도 수초 내에 수렴했으며, 메모리 사용량도 O(n²) 행렬을 압축 저장하는 방식으로 관리 가능했다.
한계점으로는 (1) 유사도 행렬이 완전 그래프 형태이므로 매우 대규모(>10⁵) 데이터에선 추가적인 근사(예: k‑NN 스파스화)가 필요하고, (2) 깊이 함수 선택에 따라 민감도가 달라질 수 있어 사전 검증이 요구된다. 향후 연구에서는 스파스 깊이 유사도, 온라인 업데이트, 그리고 비지도 깊이 학습과의 결합을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기