관계형 클러스터링을 위한 이웃 트리 기반 표현식 거리 측정법

본 논문은 관계형 데이터를 하이퍼그래프 형태로 모델링하고, 각 정점의 주변 구조를 ‘이웃 트리’로 요약한 뒤, 정점 간의 속성, 관계, 그리고 그래프 상의 근접성을 동시에 고려하는 새로운 거리(유사도) 측정법을 제안한다. 제안 방법은 기존 클러스터링 기법에 그대로 적용할 수 있으며, 다양한 데이터셋에서 기존 거리 측정법을 능가하는 성능을 보인다.

저자: Sebastijan Dumancic, Hendrik Blockeel

관계형 클러스터링을 위한 이웃 트리 기반 표현식 거리 측정법
본 논문은 관계형 데이터의 클러스터링에서 “유사성”이라는 개념이 데이터마다 다르게 정의될 수 있다는 점에 주목한다. 기존의 관계형 클러스터링 기법들은 그래프 기반(연결성 중심)이나 속성 기반(특징 중심) 등 특정 편향에 의존해 왔으며, 이러한 편향은 데이터의 구조적 다양성을 충분히 포착하지 못한다. 이를 해결하기 위해 저자들은 **타입이 지정된 정점·하이퍼엣지**로 구성된 **지향 하이퍼그래프** 모델을 채택한다. 이 모델은 관계형 데이터베이스와 논리 기반 표현을 모두 포괄하며, 정점에만 속성을 부여함으로써 다중 관계(하이퍼엣지)를 자연스럽게 표현한다. 클러스터링 대상이 되는 특정 정점 타입 *t* 에 대해, 각 정점의 **Neighbourhood Tree (NT)** 를 구축한다. NT는 루트 정점에서 시작해 사전에 정의된 깊이 *d* 만큼 하이퍼엣지를 따라가며, 각 레벨에 등장하는 정점·속성·엣지 타입을 multiset 형태로 수집한다. 이 과정은 **Algorithm 1**에 상세히 기술되어 있으며, 깊이 *d* 가 클수록 더 넓은 구조적 정보를 포함한다. 거리(또는 유사도) 측정은 두 NT 간의 **다중 분포 비교**에 기반한다. - **이산형 분포**(정점 타입, 엣지 타입, 이산 속성)는 χ² 거리식으로 비교한다. - **연속형 속성**은 평균·표준편차와 같은 집계 함수를 적용하고, 정규화된 L1 차이로 측정한다. 이러한 비교를 다섯 개의 서브 메트릭으로 나누어 가중합한다: 1. **Attribute‑wise Dissimilarity (ad)** – 루트 정점 자체 속성 차이. 2. **Neighbourhood Attribute Dissimilarity (nad)** – 각 레벨에서 동일 타입 정점들의 속성 분포 차이. 3. **Connectivity Dissimilarity (cd)** – 레벨별 정점 타입 분포 차이. 4. **Neighbourhood Dissimilarity (nd)** – 레벨별 엣지 타입·위치 분포 차이. 5. **Edge‑type Dissimilarity (ed)** – 하이퍼엣지 자체의 타입·위치 차이. 각 서브 메트릭에 가중치 *w₁…w₅* (합 1)를 부여함으로써 사용자는 **어떤 요소가 클러스터링에 더 큰 영향을 미치는지** 명시적으로 조정할 수 있다. 논문에서는 기본값을 균등하게 두었으며, 실험 결과 가중치를 별도 튜닝하지 않아도 전반적으로 좋은 성능을 보였다. 복잡도 분석에 따르면, NT 구축은 정점당 O(|E|·d) 정도이며, 전체 거리 행렬 계산은 O(N²·d) (N은 대상 정점 수) 로 기존 하이퍼그래프 기반 거리 측정법과 동등하거나 약간 우수한 수준이다. 메모리 사용량도 동일한 차원에서 관리 가능하다. **실험**은 다양한 도메인(소셜 네트워크, 생물학적 상호작용, 전통적인 관계형 데이터베이스 등)에서 10여 개의 데이터셋을 대상으로 수행되었다. 클러스터링 알고리즘으로는 k‑means, DBSCAN, Spectral Clustering 등을 사용했으며, 거리 함수만 제안 방법으로 교체하였다. 평가 지표는 Adjusted Rand Index, Normalized Mutual Information, Silhouette Score 등을 포함한다. 결과는 대부분의 경우 기존 거리(예: RIBL, Relational k‑means, Graph Kernels, Weisfeiler‑Lehman 커널 등)보다 높은 점수를 기록했다. 특히, 데이터가 속성 중심이면서 동시에 복잡한 관계를 포함하는 경우 제안 방법이 크게 우수했다. 또한, 동일 거리 함수를 **k‑Nearest Neighbor** 분류에 적용했을 때도 기존 거리 기반 분류기보다 높은 정확도와 F1 점수를 얻었다. 이는 제안 거리 함수가 **클러스터링뿐 아니라 근접 기반 학습**에도 유용함을 시사한다. **주요 기여**는 다음과 같다. - **표현의 범용성**: 하이퍼그래프와 NT를 이용해 이진 관계뿐 아니라 다중 관계까지 포괄한다. - **다중 편향 통합**: 속성, 관계, 근접성을 동시에 고려함으로써 데이터마다 다른 “좋은 클러스터” 정의에 유연하게 대응한다. - **편향 투명성**: 가중치 *w* 를 통해 사용자는 어느 요소가 클러스터링에 영향을 미치는지 직관적으로 파악할 수 있다. - **파라미터 최소화**: 기본 가중치와 깊이 *d* 만으로도 강력한 성능을 보이며, 별도 튜닝이 필요 없는 실용성을 제공한다. - **복잡도 효율성**: 기존 최첨단 방법과 동등하거나 약간 우수한 시간·메모리 복잡도를 유지한다. **제한점 및 향후 연구**도 논의된다. 깊이 *d* 선택이 클러스터링 결과에 민감할 수 있으며, 매우 큰 그래프에서는 거리 행렬 계산 비용이 병목이 될 수 있다. 이를 해결하기 위해 **근사 거리** 혹은 **샘플링 기반** 방법을 도입해 확장성을 높이는 방안을 제시한다. 또한, 가중치 자동 학습을 위한 메타학습 기법이나, 비지도 상황에서 최적 가중치를 찾는 방법에 대한 연구가 필요하다. 결론적으로, 이 논문은 관계형 데이터 클러스터링에 있어 **다양한 유사성 편향을 하나의 통합 거리 함수**로 표현함으로써, 기존 방법들의 한계를 극복하고, 다양한 도메인에서 일관된 성능 향상을 입증하였다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기