정보 확산에서 누구에게 전달할지 행동 예측

초록

본 연구는 중국 대표 마이크로블로그인 Sina Weibo의 사용자 팔로우 네트워크를 기반으로, 동일한 메시지를 여러 번 접한 사용자가 어떤 원본 사용자에게 리트윗(전달)할지를 예측한다. 구조적, 시간적, 과거 행동 및 콘텐츠 특성을 결합한 모델을 설계했으며, 실험 결과 91.3%의 높은 정확도를 달성하였다.

상세 분석

이 논문은 온라인 소셜 네트워크에서 정보 확산 메커니즘을 이해하기 위해 “다중 노출” 상황에서 사용자가 어떤 발신자를 선택해 리트윗(전달)할지를 탐구한다. 기존 연구들은 주로 메시지의 전파 범위나 전파 속도에 초점을 맞추었지만, 개별 사용자가 다중 노출된 경우 어떤 경로를 선택하는지는 거의 다루지 않았다. 저자들은 Sina Weibo 데이터를 활용해 ‘forwarding whom’ 문제를 정의하고, 이를 해결하기 위한 예측 프레임워크를 제시한다.

먼저, 데이터 전처리 단계에서 각 리트윗 이벤트를 “노출 시퀀스”와 “최종 선택 발신자”로 분해한다. 노출 시퀀스는 사용자가 특정 트윗을 처음부터 마지막까지 접한 순서를 의미하며, 동일 트윗이 여러 사용자의 팔로우 네트워크를 통해 중복 전파될 때 발생한다. 이때, 사용자는 여러 후보 발신자 중 하나를 선택하게 되며, 선택 결정에 영향을 미치는 요인을 구조적, 시간적, 역사적, 콘텐츠적 네 가지 카테고리로 구분한다.

구조적 특성은 후보 발신자와 수신자 사이의 팔로우 거리, 공동 팔로워 수, 네트워크 중심성(예: 페이지랭크, 베트윈 중심성) 등을 포함한다. 시간적 특성은 각 노출이 발생한 정확한 타임스탬프, 노출 간 간격, 최신 노출이 얼마나 최근인지 등을 측정한다. 역사적 특성은 과거에 두 사용자 간에 발생한 리트윗 빈도, 상호작용 강도, 과거 선택 패턴 등을 반영한다. 마지막으로 콘텐츠 특성은 트윗의 텍스트 길이, 해시태그 수, 감성 점수(긍정/부정), 주제 모델링(LDA) 기반 토픽 분포 등을 활용한다.

이러한 다차원 피처를 통합하기 위해 저자들은 Gradient Boosting Decision Tree(GBDT)와 Deep Neural Network(DNN)를 혼합한 하이브리드 모델을 설계한다. GBDT는 비선형 관계와 피처 간 상호작용을 효과적으로 포착하고, DNN은 고차원 텍스트 임베딩을 학습한다. 두 모델의 출력은 메타-러닝 레이어에서 결합되어 최종 확률 예측을 생성한다. 모델 학습은 10%의 데이터를 검증용으로 따로 보관하고, 교차 검증을 통해 과적합을 방지한다.

실험 결과는 두 가지 관점에서 평가된다. 첫째, 정확도(Accuracy)와 AUC(Area Under Curve) 등 전통적인 분류 지표를 사용해 모델 성능을 측정한다. 둘째, 후보 발신자 순위 예측 정확도를 확인하기 위해 Top‑K 정확도(예: Top‑1, Top‑3)를 보고한다. 제안된 모델은 전체 데이터셋에서 91.3%의 정확도와 0.96 이상의 AUC를 기록했으며, 특히 Top‑3 정확도는 98%에 달한다. 베이스라인으로 사용된 로지스틱 회귀, 단순 GBDT, 그리고 순수 DNN보다 모두 우수한 결과를 보였다.

또한, 피처 중요도 분석을 통해 구조적 요인이 가장 큰 영향을 미치지만, 시간적 요인(특히 최신 노출의 가중치)과 콘텐츠 감성 점수도 의미 있는 기여를 한다는 것을 확인했다. 특히, 사용자가 최근에 많이 상호작용한 발신자를 선택할 확률이 크게 증가하는 경향이 관찰되었다. 이러한 결과는 소셜 플랫폼이 사용자 피드에 표시할 콘텐츠를 최적화하거나, 악성 정보의 전파 경로를 차단하는 데 실용적인 인사이트를 제공한다.

마지막으로, 논문은 연구의 한계와 향후 과제도 제시한다. 현재는 Sina Weibo 한 플랫폼에 국한된 데이터만 사용했으며, 다른 문화권이나 플랫폼(예: Twitter, Facebook)에서의 일반화 가능성을 검증해야 한다. 또한, 실시간 예측을 위한 경량 모델 설계와, 사용자 프라이버시를 보호하면서도 정확도를 유지하는 방법에 대한 연구가 필요하다.