시드와 반지도 학습으로 겹치는 커뮤니티를 효율적으로 탐지하는 방법
초록
본 논문은 네트워크의 각 엣지를 문서, 각 노드를 용어로 보는 텍스트 마이닝 기반 변환을 도입하고, 로컬 RSS 점수와 전역 MGIG 최적화를 결합한 시드 선택 기법을 제안한다. 선택된 시드를 학습 데이터로 활용해 나이브 베이즈와 EM 과정을 통한 반지도 학습으로 엣지를 커뮤니티에 분류한다. 제안 알고리즘 ITEM은 엣지 수에 선형적인 시간 복잡도를 가지며, 다양한 합성·실제 네트워크에서 기존 4개 방법보다 군집 품질을 크게 향상시킨다.
상세 분석
ITEM 알고리즘은 네트워크를 ‘코퍼스’로 변환한다는 독창적인 아이디어에서 출발한다. 각 엣지를 하나의 문서로, 네트워크의 모든 노드를 해당 문서의 용어(term)로 매핑함으로써 전통적인 텍스트 마이닝 기법을 적용할 수 있게 한다. 이때 Jaccard 행렬을 이용해 엣지‑노드 관계를 0‑1 혹은 tf‑idf 가중치 형태로 표현한다. Jaccard 행렬의 각 행은 해당 엣지의 이웃 노드 집합을 그대로 반영하므로, 같은 커뮤니티에 속한 엣지들은 유사한 행 벡터를 갖게 된다.
시드 선택 단계는 두 단계로 구성된다. 첫 번째 단계인 RSS(명성·강도·특이성) 점수는 엣지 자체와 인접 엣지들 간의 로컬 정보를 활용한다. 명성은 인접 엣지와의 SimHash 기반 해밍 거리 평균으로 정의되고, 강도는 공통 이웃 수를 양쪽 노드의 최대 차수로 정규화한 값이며, 특이성은 공통 이웃 비율을 이용해 계산한다. 각 엣지는 자신의 인접 엣지와 점수를 비교해 로컬 최고점이면 후보 시드가 된다. 두 번째 단계에서는 후보 시드 집합에 대해 전역 정보 이득을 최대화하는 MGIG 알고리즘을 적용해 서로 중복되지 않고 대표성을 갖는 시드를 최종적으로 선정한다. 이 과정은 전역적인 시드 다양성을 보장하면서도 계산량을 크게 늘리지 않는다.
선택된 시드들은 라벨이 부여된 학습 데이터가 되며, 나이브 베이즈(NB) 분류기를 기반으로 반지도 학습을 수행한다. NB는 Jaccard 행렬을 ‘문서‑용어’ 행렬로 해석해 각 커뮤니티를 하나의 토픽으로 모델링한다. EM 과정에서 라벨이 없는 엣지는 현재 NB 모델에 의해 잠정 라벨이 할당되고, 이후 M‑step에서 라벨이 부여된 데이터와 함께 NB 파라미터가 재추정된다. 이 순환은 라벨 변화가 없을 때 혹은 사전 정의된 반복 횟수에 도달할 때까지 진행된다. 반지도 학습을 통해 라벨이 없는 다수의 엣지를 효과적으로 활용함으로써 전통적인 히어리스틱 피트니스 함수보다 높은 정확도를 달성한다.
시간 복잡도 분석에 따르면, Jaccard 행렬 구축은 각 엣지의 이웃을 한 번씩 탐색하므로 O(|E|)이며, RSS 점수 계산과 MGIG 시드 선택도 엣지 수에 비례한다. NB 학습과 EM 반복 역시 행렬 크기(엣지 수)와 토픽 수에 선형적으로 의존한다. 따라서 전체 알고리즘은 엣지 수에 대해 선형적인 시간·메모리 요구량을 보인다. 실험에서는 LFR 합성 네트워크, Karate, Dolphin, LM 등 다양한 규모와 구조를 가진 실제 네트워크에서 기존 GCE, LFM, OSLOM, SLPA 등 네 가지 베이스라인 대비 NMI·F1·Modularity 지표가 평균 10~20% 이상 향상된 결과를 보고한다.
핵심 기여는 (1) Jaccard 행렬을 통한 네트워크‑텍스트 변환 개념, (2) 로컬‑전역 결합 RSS+MGIG 시드 선택 기법, (3) 반지도 학습 기반의 전역 최적화 확장 방법이다. 한계점으로는 엣지 기반 접근이 노드 중심 커뮤니티 정의와 차이가 있을 수 있으며, 매우 희소한 네트워크에서는 Jaccard 행렬이 과도하게 희소해 학습이 어려워질 가능성이 있다. 향후 연구에서는 가중치 그래프와 동적 네트워크에 대한 확장, 그리고 딥러닝 기반 토픽 모델링과의 결합을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기