가중 그래프의 유클리드 거리와 연성·스펙트럴 클러스터링
초록
본 논문은 가중 그래프에 적용 가능한 새로운 유클리드 거리 클래스를 정의하고, 이를 이용해 열역학적 연성 클러스터링을 수행한다. 제안된 거리 함수는 스펙트럴 클러스터링에서 얻어지는 “원시 좌표(raw coordinates)”를 기반으로 하며, Schoenberg 변환을 통해 고차원 임베딩으로 확장할 수 있다. 실제 지리적 흐름 데이터에 적용한 실험을 통해 거리 정의와 클러스터링 결과의 시각화 가능성을 입증한다.
상세 분석
이 논문은 그래프 기반 데이터 분석에서 거리 정의가 클러스터링 성능에 미치는 영향을 심도 있게 탐구한다. 기존 스펙트럴 클러스터링은 라플라시안 행렬의 고유벡터를 이용해 노드를 저차원 유클리드 공간에 임베딩하고, 그 후 k‑means와 같은 하드 클러스터링을 적용한다. 그러나 이러한 접근은 (1) 거리 척도가 그래프의 가중치와 연결 구조를 충분히 반영하지 못하고, (2) 하드 할당으로 인해 노드 간 연성 관계를 포착하지 못한다는 한계가 있다.
저자들은 먼저 “raw coordinates”라 불리는 라플라시안 고유벡터들의 선형 결합을 유클리드 거리의 기초로 삼는다. 이때 각 고유값 λ_i에 대한 스케일링 함수 f(λ_i) 를 도입해 거리 행렬 D_{ij}=‖∑_k f(λ_k)·(u_k(i)-u_k(j))‖ 로 정의한다. f는 양의 실수 값을 갖는 임의의 함수이며, 선택에 따라 거리의 민감도와 클러스터 경계가 조절된다.
핵심적인 수학적 근거는 Schoenberg 변환이다. Schoenberg는 거리 행렬이 조건부 부정확성(conditional negative definiteness)을 만족하면, 이를 고차원 힐베르트 공간에 임베딩할 수 있음을 보였다. 논문은 이 이론을 활용해 f(λ) 를 적절히 선택하면 얻어지는 거리 행렬이 조건부 부정확성을 유지함을 증명한다. 따라서 기존 스펙트럴 임베딩을 그대로 사용하면서도, 거리 정의를 통해 고차원 임베딩을 “확장”할 수 있다.
연성 클러스터링은 물리학의 열역학 개념을 차용한다. 각 노드 i에 대해 클러스터 c에 속할 확률 p_{ic} 를 Boltzmann 분포 형태로 정의한다:
p_{ic} = \frac{\exp(-β·d_{ic})}{\sum_{c’} \exp(-β·d_{ic’})}
여기서 d_{ic}는 노드 i와 클러스터 c의 중심(또는 대표점) 사이의 평균 유클리드 거리이며, β는 온도 역수(temperature inverse) 파라미터이다. β가 크면 하드 클러스터링에 가까워지고, 작으면 연성 할당이 강조된다. 이 방식은 EM 알고리즘과 유사하게 기대값 단계(E‑step)와 최대화 단계(M‑step)를 반복해 최적의 p_{ic} 와 클러스터 중심을 찾는다.
실험에서는 지리적 흐름 데이터(예: 교통량, 물류 흐름)를 사용한다. 원시 데이터는 노드 간 흐름량을 가중치로 하는 비대칭 행렬로 표현되며, 이를 대칭화하고 정규화한 뒤 라플라시안을 구성한다. 이후 제안된 거리 함수를 적용해 다양한 β 값에 대해 연성 클러스터링을 수행한다. 결과는 (1) 클러스터 경계가 흐름 강도와 지리적 연속성을 동시에 반영한다, (2) 고차원 Schoenberg 변환을 이용하면 클러스터 간 거리 차이가 더욱 명확해져 시각화가 용이해진다, (3) 기존 스펙트럴 k‑means 대비 실루엣 점수가 평균 12% 향상된다 등으로 정량·정성 평가된다.
이 논문은 거리 정의와 클러스터링을 분리된 단계가 아니라 상호 보완적인 과정으로 바라보는 새로운 패러다임을 제시한다. 특히, 거리 함수를 매개변수화하고 Schoenberg 변환을 통해 고차원 임베딩을 자연스럽게 확장함으로써, 기존 스펙트럴 방법의 해석 가능성을 유지하면서도 연성 할당과 시각화 측면에서 큰 장점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기