네트워크 커뮤니티 탐지를 위한 엣지 예측 기반 개선 방법

초록

본 논문은 커뮤니티 탐지와 엣지 예측이 공유하는 정점 유사성 개념을 활용한다. 단순한 정점 유사도 측정(공통 이웃, Adamic‑Adar 등)을 사전 처리 단계에 적용해 기존 커뮤니티 탐지 알고리즘의 입력 그래프를 가중화하고, 이를 통해 모듈러리티 최적화, Infomap, Louvain 등에서 얻는 커뮤니티 품질을 향상시킨다. 합성 및 실제 네트워크 실험에서 제안 방법이 기본 알고리즘보다 높은 정밀도와 재현율을 보이며, 특히 희소하거나 노이즈가 많은 그래프에서 효과가 두드러진다.

상세 분석

이 연구는 커뮤니티 탐지와 엣지 예측을 동일한 링크 마이닝 문제의 두 측면으로 바라보는 통합적 시각을 제시한다. 기존 커뮤니티 탐지 알고리즘은 그래프 구조만을 이용해 정점 집합을 분할하지만, 정점 간 유사성을 정량화한 엣지 예측 기법은 잠재적 연결 강도를 추정한다는 점에서 유사성을 공유한다. 논문은 이러한 유사성 측정을 사전 가중치로 활용해 그래프의 엣지 가중치를 재조정하는 간단한 파이프라인을 설계한다. 구체적으로, 각 정점 쌍 (i, j)에 대해 공통 이웃 수, Jaccard 계수, Adamic‑Adar 점수 등을 계산하고, 이를 원래의 이진 엣지 존재 여부와 곱해 새로운 가중 엣지를 만든다. 이렇게 변형된 그래프는 기존 커뮤니티 탐지 알고리즘에 그대로 입력될 수 있다.

핵심 아이디어는 두 정점이 많은 공통 이웃을 가질수록 같은 커뮤니티에 속할 확률이 높다는 가정이다. 따라서 가중치가 높은 엣지는 커뮤니티 경계 내부에, 낮은 엣지는 경계 혹은 잡음에 해당한다. 이 접근법은 복잡한 모델링 없이도 정점 유사도만으로 그래프의 구조적 신호를 강화한다는 장점이 있다.

실험에서는 LFR 합성 네트워크와 여러 실제 소셜·생물학 네트워크(예: Zachary’s Karate Club, DBLP 협업망, PPI 네트워크)를 대상으로, 기본 Louvain, Infomap, FastGreedy와 같은 알고리즘에 원본 그래프와 가중 그래프를 각각 적용하였다. 평가 지표는 정밀도·재현율·F1 점수와 정규화 모듈러티티(NMI)이다. 결과는 가중화된 그래프에서 모든 알고리즘이 평균 5~12% 정도 성능 향상을 보였으며, 특히 평균 차수가 낮고 클러스터링 계수가 낮은 희소 네트워크에서 개선 폭이 크게 나타났다.

또한, 노이즈 실험을 위해 무작위 엣지를 일정 비율 삽입했을 때, 기존 알고리즘은 커뮤니티 경계를 흐리게 만들지만, 제안 방법은 노이즈 엣지에 낮은 가중치를 부여해 영향을 억제한다. 이는 엣지 예측 기반 가중화가 노이즈 강인성을 제공한다는 중요한 시사점을 제공한다.

한계점으로는 정점 유사도 계산 비용이 O(|V|^2) 수준으로 급증할 수 있다는 점과, 유사도 함수 선택이 도메인에 따라 성능 차이를 만든다는 점을 들 수 있다. 향후 연구에서는 샘플링 기반 근사 계산이나 학습 기반 유사도 함수를 도입해 확장성을 높이는 방안을 제시한다.