비대칭 서프라이즈 기반 커뮤니티 탐지

본 논문은 네트워크 과학에서 커뮤니티 탐지를 위한 새로운 정량적 지표와 최적화 알고리즘을 제시한다. 기존에 제안된 ‘Surprise’ 지표는 하이퍼지오메트릭 분포를 기반으로, 주어진 파티션이 무작위 그래프(ER 모델)에서 기대되는 내부 엣지 수보다 얼마나 많은 내부 엣지를 포함하는지를 확률적으로 평가한다. 그러나 이 정의는 계산적으로 복잡하고, 대규모 네트워크에 직접 적용하기 어렵다는 한계가 있었다. 이를 극복하기 위해 저자들은 ‘비대칭 서프라이즈(Asymptotical Surprise)’라는 근사식을 도입한다. 그래프가 충분히 크고, 내부 엣지 비율(q)와 기대 내부 엣지 비율(h_q)이 고정된 상황을 가정하면, 하이퍼지오메트릭 확률을 이항 분포로 근사할 수 있다. Stirling 근사를 적용해 로그 팩토리얼을 엔트로피 형태로 변환하고, 최종적으로 서프라이즈는 다음과 같이 표현된다. S(V) ≈ m · D(q ‖ h_q) 여기서 m은 전체 엣지 수, D는 Kullback‑Leibler(KL) 발산이다. KL 발산은 두 베르누이 확률분포 사이의 차이를 측정하므로, 실제 내부 엣지 비율이 기대값보다 클수록(즉, q > h_q) 서프라이즈 값이 커진다. 이는 커뮤니티가 무작위 그래프와 얼마나 다른지를 직관적으로 나타낸다. 이 근사식은 원래 서프라이즈와 거의 동일한 값을 제공하면서도, 계산 복잡도가 크게 감소한다. 특히, q와 h_q가 고정된 경우에는 O(1) 연산으로 서프라이즈를 평가할 수 있어, 대규모 네트워크에서도 실시간 최적화가 가능하다. 알고리즘 설계는 널리 사용되는 Louvain 방법을 차용한다. 초기에는 각 노드를 독립된 커뮤니티로 두고, 각 노드 i를 현재 커뮤니티 c에서 다른 커뮤니티 d로 이동했을 때 서프라이즈 변화량 ΔS를 ΔS = m ·

비대칭 서프라이즈 기반 커뮤니티 탐지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기