덴드로그램으로 그래프 구조를 재구성하는 새로운 계층적 클러스터링
초록
본 논문은 그래프를 덴드로그램 형태의 계층적 클러스터링으로 표현하고, 그 품질을 그래프 재구성 능력으로 평가하는 새로운 메트릭을 제안한다. 최적의 덴드로그램은 노드 쌍 샘플링 분포와 사전 분포(π)를 이용한 KL‑다이버전스를 최소화하는 초거리(ultrametric)를 갖으며, 이를 찾기 위한 탐욕적 병합 알고리즘이 제시된다. 또한 제안 메트릭은 기존 Dasgupta 비용과 모듈러리티와의 관계를 밝히며, 실제 그래프에서의 적용 가능성을 논의한다.
상세 분석
이 논문은 그래프를 계층적 구조인 덴드로그램으로 압축하는 과정에서 “재구성 가능성”을 핵심 품질 지표로 삼는다. 먼저 그래프 G의 가중치 w(u,v)를 정규화하여 노드 쌍에 대한 확률 분포 p(u,v)=w(u,v)/w를 정의하고, 임의의 사전 분포 π를 도입한다. 덴드로그램이 정의하는 초거리 d(u,v)는 두 노드의 가장 가까운 공통 조상에 할당된 높이이며, 이는 거리의 역수로 유사도 ˆw(u,v)=π(u)π(v)d(u,v) (u≠v) 를 만든다. 원 그래프와 재구성 그래프 ˆG 사이의 차이는 KL‑다이버전스 D(p‖ˆp) 로 측정되며, 이를 최소화하는 것이 목표가 된다.
목표 함수 J(d)=∑{u≠v}p(u,v)log d(u,v)+log∑{u≠v}π(u)π(v)d(u,v) 로 전개되고, 내부 노드 i∈I에 대해 d(A,B)=λπ(A)π(B)p(A,B) (A,B는 i의 두 서브트리) 로 최적값을 얻는다. 여기서 λ는 전체 정규화 상수이다. 최적 덴드로그램을 찾는 문제는 결국 트리 구조 T와 각 내부 노드의 거리 값을 동시에 최적화하는 문제로 변환된다.
트리 구조 선택에 대한 최적화는 식 (4)인
max_T ∑_{(A,B)∈I} p(A,B) log
댓글 및 학술 토론
Loading comments...
의견 남기기