온라인 소셜 네트워크에서 영향력 있는 사용자를 예측하는 방법
초록
본 논문은 소셜 네트워크에서 사용자의 영향력을 평가할 때, 네트워크 구조뿐 아니라 해당 네트워크 위에서 일어나는 동적 과정의 특성을 고려해야 함을 주장한다. 보수적(예: 랜덤 워크)과 비보수적(예: 정보 전파) 과정으로 구분한 뒤, Digg 플랫폼의 실제 투표 데이터를 이용해 ‘인-네트워크 투표 수’를 영향력의 실증적 지표로 정의한다. 다양한 중앙성 모델을 비교한 결과, 비보수적 모델, 특히 정규화 알파-중심성(normalized α‑centrality)이 가장 높은 예측 정확도를 보였다. 논문은 해당 메트릭을 효율적으로 계산하는 알고리즘과 수학적 증명을 제공한다.
상세 분석
이 연구는 소셜 네트워크 분석에서 흔히 간과되는 ‘동적 과정의 보수성’이라는 개념을 도입함으로써 영향력 모델링에 새로운 시각을 제시한다. 저자들은 네트워크 위에서 일어나는 현상을 두 종류로 구분한다. 보수적 과정은 흐름이 보존되는 특성을 가지며, 랜덤 워크가 전형적인 예이다. 반면 비보수적 과정은 정보나 감정이 복제·전파되는 형태로, 투표, 리트윗, 공유 등이 이에 해당한다. 이러한 구분은 영향력 모델이 어떤 과정을 모사하고 있는가에 따라 모델 선택이 달라져야 함을 의미한다.
실험 데이터는 뉴스 집계 사이트 Digg에서 수집한 사용자 간 투표 네트워크이다. 사용자는 스토리를 제출하고, 다른 사용자는 해당 스토리에 투표한다. 저자들은 한 사용자가 제출한 스토리가 네트워크 내부에서 얻은 총 투표 수를 그 사용자의 ‘실제 영향력’으로 정의한다. 이는 순수히 비보수적 정보 흐름에 의해 발생하는 결과이므로, 비보수적 모델이 이 지표를 가장 잘 예측해야 한다는 가설을 검증한다.
다양한 중앙성 지표—디그리, 클로즈니스, 베트위니스, 페이지랭크(보수적 랜덤 워크 기반) 등—와 함께 비보수적 모델인 α‑중심성(α‑centrality)과 그 정규화 버전인 normalized α‑centrality를 적용한다. α‑중심성은 인접 행렬 A와 스칼라 파라미터 α를 이용해 (I‑αA)⁻¹·1 형태로 정의되며, α가 작을수록 근접 이웃의 기여가 강조되고, α가 클수록 장거리 전파 효과가 반영된다. 정규화 과정은 노드 간 스케일 차이를 보정해 비교 가능성을 높인다.
실험 결과, 페이지랭크와 같은 보수적 모델은 실제 영향력과의 상관관계가 낮았다. 반면 α‑중심성 계열은 높은 상관계수를 보였으며, 특히 α를 0.1~0.2 수준으로 설정하고 정규화한 normalized α‑centrality가 가장 높은 예측 정확도를 기록했다. 이는 비보수적 정보 전파가 실제 Digg의 투표 메커니즘을 잘 모사한다는 것을 실증적으로 확인시킨다.
또한 논문은 대규모 네트워크에서도 효율적으로 α‑중심성을 계산할 수 있는 반복적 알고리즘을 제시한다. 초기 벡터를 1로 설정하고, x_{t+1}=αA x_t + 1 형태로 업데이트하며, 수렴 조건을 α·λ_max<1(λ_max는 A의 최대 고유값)으로 정의한다. 수학적 증명을 통해 수렴성을 보장하고, 시간 복잡도를 O(m·k) (m은 엣지 수, k는 반복 횟수)로 제시한다.
이러한 분석은 소셜 미디어, 마케팅, 여론 형성 등 다양한 분야에서 ‘영향력 있는 사용자’를 정확히 식별하기 위한 모델 선택 기준을 제공한다. 특히 비보수적 전파가 지배적인 환경에서는 α‑중심성 계열을, 보수적 흐름이 주요한 경우에는 랜덤 워크 기반 모델을 적용하는 것이 합리적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기