무한 엣지 파티션 모델을 통한 겹침 커뮤니티 탐지와 링크 예측
초록
본 논문은 베르누이‑포아송 연결을 이용해 이진 인접 행렬을 분해하는 무한 엣지 파티션 모델(HGP‑EPM)을 제안한다. 계층적 감마 프로세스를 통해 커뮤니티 수를 비모수적으로 추정하고, 관측된 엣지만을 대상으로 연산량을 O(¯d N)으로 제한함으로써 대규모 희소 네트워크에서도 효율적으로 겹침 커뮤니티와 커뮤니티 간 상호작용을 발견하고, 링크 예측 성능을 크게 향상시킨다.
상세 분석
이 논문은 기존 확률 블록 모델(SBM)과 혼합 멤버십 스토캐스틱 블록 모델(MMSB)의 한계를 극복하기 위해 엣지 파티션 모델(EPM)을 도입한다. 핵심 아이디어는 각 관측된 엣지를 잠재적인 카운트 변수 m 와 연결하고, 이 m을 베르누이‑포아송(BerPo) 링크를 통해 0/1 이진값으로 변환한다는 점이다. 베르누이‑포아송 링크는 b=1 iff m≥1 이라는 단순한 임계조건을 사용해 포아송 카운트의 희소성을 그대로 유지하면서도 포아송‑감마 결합의 공액성을 활용해 베이지안 추론을 용이하게 만든다.
잠재 카운트 m 은 두 단계의 포아송 팩터 모델로 표현된다. 첫 번째는 일반적인 포아송 팩터 모델 m_{ij}∼Po(∑{k1,k2} φ{ik1} λ_{k1k2} φ_{jk2}) 이며, 여기서 φ_{ik}는 노드 i가 커뮤니티 k에 속하는 정도를 나타내는 비음수 피처, λ_{k1k2}는 커뮤니티 k1과 k2 사이의 상호작용 강도이다. 두 번째는 이 카운트를 m_{ik1k2j}∼Po(φ_{ik1} λ_{k1k2} φ_{jk2}) 로 세분화해 각 엣지가 어떤 커뮤니티 쌍에 의해 생성됐는지를 명시적으로 추정한다. 이렇게 하면 엣지 하나가 여러 커뮤니티에 동시에 기여할 수 있어 겹침 구조를 자연스럽게 모델링한다.
비모수적 확장을 위해 계층적 감마 프로세스(HGP)를 도입한다. 기본 감마 프로세스 G∼ΓP(G₀,1/c₀) 는 무한 개의 원자 (r_k, φ_k) 를 생성하고, 이 원자들을 이용해 관계 감마 프로세스 Λ|G∼rΓP(G,ξ,1/β) 를 정의한다. 여기서 λ_{k1k2}∼Gam(ξ r_{k1}, 1/β) (대각선) 혹은 Gam(r_{k1} r_{k2}, 1/β) (비대각선) 으로 샘플링되며, 이는 커뮤니티 간 상호작용 강도가 해당 커뮤니티의 중요도 r_k 에 비례하도록 만든다. 이 구조는 자동으로 불필요한 커뮤니티를 억제하는 ‘shrinkage’ 효과를 제공한다.
연산 복잡도 측면에서, 관측되지 않은 엣지는 m_{ij}=0 이므로 m_{ik1k2j}=0 으로 자동 처리된다. 따라서 알고리즘은 실제 존재하는 엣지 |E| 에만 O(¯d N) (¯d는 평균 차수) 만큼의 연산을 수행한다. 이는 MMSB와 같이 모든 N² 쌍을 고려하는 방법보다 훨씬 효율적이며, 대규모 소셜 네트워크에도 적용 가능하게 만든다.
추론은 Gibbs 샘플링 기반으로 수행된다. 베르누이‑포아송 링크 덕분에 b=0 일 때 m=0 이 확정되므로, m 에 대한 조건부 분포는 단순히 트렁케이티드 포아송이며, φ 와 λ 에 대한 조건부는 감마-포아송 공액성으로부터 직접 샘플링된다. 또한, 계층적 감마 프로세스의 원자 수를 자동 조절하기 위해 ‘slice sampling’ 혹은 ‘truncated stick-breaking’ 기법을 활용한다.
실험에서는 4개의 실제 네트워크(예: Political blogs, NIPS co‑authorship 등)에서 HGP‑EPM이 기존 최첨단 방법(예: MMSB, Eigenmodel, IRM 등)보다 커뮤니티 탐지 정확도와 AUC 기반 링크 예측 성능에서 우수함을 보였다. 특히, 커뮤니티 간 상호작용을 모델링한 HGP‑EPM이 단순한 대각선만을 사용하는 GP‑EPM보다 동질성(assortative)과 이질성(dissortative) 네트워크 모두에서 더 높은 예측력을 나타냈다.
요약하면, 이 논문은 베르누이‑포아송 링크와 계층적 감마 프로세스를 결합한 무한 엣지 파티션 모델을 통해 (1) 겹침 커뮤니티와 그들 간 상호작용을 자연스럽게 추정, (2) 비모수적으로 커뮤니티 수를 자동 결정, (3) 관측된 엣지만을 대상으로 효율적인 O(¯d N) 연산을 구현, (4) 실험적으로 현존 방법들을 능가하는 성능을 입증했다.
댓글 및 학술 토론
Loading comments...
의견 남기기