덴드로그램으로 그래프 구조를 재구성하는 새로운 계층적 클러스터링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 그래프를 덴드로그램 형태의 계층적 클러스터링으로 표현하고, 그 품질을 그래프 재구성 능력으로 평가하는 새로운 메트릭을 제안한다. 최적의 덴드로그램은 노드 쌍 샘플링 분포와 사전 분포(π)를 이용한 KL‑다이버전스를 최소화하는 초거리(ultrametric)를 갖으며, 이를 찾기 위한 탐욕적 병합 알고리즘이 제시된다. 또한 제안 메트릭은 기존 Dasgupta 비용과 모듈러리티와의 관계를 밝히며, 실제 그래프에서의 적용 가능성을 논의한다.

상세 분석

이 논문은 그래프를 계층적 구조인 덴드로그램으로 압축하는 과정에서 “재구성 가능성”을 핵심 품질 지표로 삼는다. 먼저 그래프 G의 가중치 w(u,v)를 정규화하여 노드 쌍에 대한 확률 분포 p(u,v)=w(u,v)/w를 정의하고, 임의의 사전 분포 π를 도입한다. 덴드로그램이 정의하는 초거리 d(u,v)는 두 노드의 가장 가까운 공통 조상에 할당된 높이이며, 이는 거리의 역수로 유사도 ˆw(u,v)=π(u)π(v)d(u,v) (u≠v) 를 만든다. 원 그래프와 재구성 그래프 ˆG 사이의 차이는 KL‑다이버전스 D(p‖ˆp) 로 측정되며, 이를 최소화하는 것이 목표가 된다.

목표 함수 J(d)=∑{u≠v}p(u,v)log d(u,v)+log∑{u≠v}π(u)π(v)d(u,v) 로 전개되고, 내부 노드 i∈I에 대해 d(A,B)=λπ(A)π(B)p(A,B) (A,B는 i의 두 서브트리) 로 최적값을 얻는다. 여기서 λ는 전체 정규화 상수이다. 최적 덴드로그램을 찾는 문제는 결국 트리 구조 T와 각 내부 노드의 거리 값을 동시에 최적화하는 문제로 변환된다.

트리 구조 선택에 대한 최적화는 식 (4)인
max_T ∑_{(A,B)∈I} p(A,B) log

덴드로그램으로 그래프 구조를 재구성하는 새로운 계층적 클러스터링

초록

상세 분석

댓글 및 학술 토론

의견 남기기