이모 네트워크에서 사회적 서클 자동 탐지
초록
본 논문은 사용자의 이모(ego) 네트워크를 대상으로, 친구 간 연결 구조와 프로필 정보를 동시에 활용해 다중 소속 노드 클러스터링을 수행함으로써 자동으로 사회적 서클을 식별하는 모델을 제안한다. 각 서클마다 전용 프로필 유사도 메트릭을 학습하고, 겹치거나 계층적으로 중첩된 서클도 탐지한다. Facebook, Google+, Twitter 데이터셋에 대한 실험에서 제안 모델이 인간이 직접 라벨링한 기준보다 높은 정확도를 보이며, 다양한 네트워크와 프로필 특성에 강인함을 입증한다.
상세 분석
이 논문은 “사회적 서클 자동 식별”이라는 새로운 과제를 정의하고, 이를 이모 네트워크 상의 다중 멤버십 클러스터링 문제로 공식화한다. 기존 연구는 주로 전체 그래프 수준에서 커뮤니티를 찾거나, 사용자‑사용자 간의 단일 관계만을 이용했지만, 본 연구는 (1) 이모 네트워크라는 제한된 범위 내에서 친구‑친구 간 연결 정보를 활용하고, (2) 각 사용자의 프로필 속성을 벡터화하여 서클별 유사도 함수를 학습한다는 점에서 차별화된다.
모델은 베이지안 확률 그래프 형태로 구성되며, 각 서클 (c)에 대해 멤버십 변수 (z_{ic}\in{0,1})와 서클 전용 프로필 가중치 (\theta_c)를 동시에 추정한다. 네트워크 구조는 스테레오스코픽 확률 (P(A_{ij}=1|z_i,z_j)) 로 모델링되며, 이는 같은 서클에 속한 두 노드가 연결될 확률을 높게, 서로 다른 서클에 속한 경우 낮게 설정한다. 프로필 유사도는 (\sigma(\theta_c^\top (x_i\odot x_j))) 형태의 로짓 함수로 표현되며, 여기서 (x_i)는 사용자 (i)의 프로필 특성 벡터, (\odot)는 원소별 곱을 의미한다. 이렇게 하면 서클마다 중요한 프로필 차원이 다를 수 있음을 자연스럽게 반영한다.
학습은 변분 EM 알고리즘을 사용한다. E‑step에서는 현재 파라미터 하에 멤버십 확률 (q(z_{ic}))를 업데이트하고, M‑step에서는 네트워크 연결 파라미터와 프로필 가중치 (\theta_c)를 최대우도 추정한다. 특히, 서클 수 (K)는 베이지안 정보 기준(BIC) 혹은 사전 확률을 통해 자동 선택한다는 점이 실용적이다.
실험에서는 세 가지 실제 SNS 데이터셋(Facebook, Google+, Twitter)을 수집하고, 각 플랫폼 별로 사용자가 직접 만든 ‘리스트’ 혹은 ‘서클’ 정보를 골드 스탠다드로 활용하였다. 정밀도·재현율·F1 점수, 그리고 정규화된 상호 정보(NMI) 등 다중 라벨링 평가 지표에서 제안 모델은 기존의 단일‑프로파일 기반 클러스터링(Louvain, Infomap) 및 프로필‑전용 K‑means 대비 10~15%p 이상의 개선을 보였다. 특히, 겹치는 서클이 많은 경우(예: 직장·동창·가족)에서 모델이 각 서클을 정확히 구분해내는 능력이 두드러졌다.
추가 분석을 통해 서클별 학습된 (\theta_c)를 시각화하면, 직장 서클은 ‘회사’, ‘직위’와 같은 직업 관련 특성이 높은 가중치를 갖고, 가족 서클은 ‘성별’, ‘연령대’가 강조되는 것을 확인할 수 있다. 이는 모델이 실제 인간이 인식하는 사회적 구분 기준을 자동으로 학습한다는 증거이다.
한계점으로는 (1) 프로필 정보가 부족하거나 부정확한 경우 성능 저하가 발생할 수 있고, (2) 매우 큰 이모 네트워크(수천 명 이상)에서는 변분 EM의 수렴 속도가 느려질 수 있다. 향후 연구에서는 딥러닝 기반 임베딩을 도입해 프로필·구조 통합 표현을 학습하거나, 온라인 업데이트 메커니즘을 설계해 실시간 서클 관리에 적용하는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기