온라인 소셜 미디어에서 바이럴 허위정보의 통계적 특성

본 논문은 온라인 소셜 미디어, 특히 페이스북에서 확산되는 음모론·허위정보 게시물의 ‘바이럴’ 특성을 정량적으로 규명하고자 한다. 연구자는 2010년부터 2014년까지 5년간 328개의 미국 공개 페이스북 페이지에서 총 345 054개의 게시물을 수집하였다. 각 게시물에 대해 생성 시각과 공유 횟수를 확보했으며, 공유 횟수를 확률변수 X로 모델링한다. X는 0에서 무한대로 정의되는 비음수 연속형 변수이며, 오른쪽 꼬리가 매우 두꺼운 파워‑법칙 형태를 보인다. 극단값 이론(EVT)의 두 가지 전통적 방법인 블록 최대법(BM)과 임계값 초과법(POT)을 논의한 뒤, 저자는 POT 방식을 채택한다. 250 000회 이상의 공유를 ‘극히 바이럴’ 사건으로 정의하고, 이 임계값을 초과하는 관측값들의 분포가 일반화 파레토 분포(GPD)로 근사된다고 가정한다. GPD의 형태 매개변수 ξ가 양수(ξ > 0)임을 확인함으로써 데이터가 프레헷(Frechet) 극값 분포의 최대 영역에 속함을 증명한다. 이는 오른쪽 꼬리가 파워‑법칙이며, 1차 모멘트(평균)는 존재하지만 2차 이상 모멘트(분산 등)는 무한함을 의미한다. 따라서 평균은 유의미하지만 변동성은 정의되지 않는다. 시간적 분석에서는 게시물 생성 시각이 불규칙하게 분포함을 지적한다. 이를 보정하기 위해 주간 게시물 수에 따라 공유 수를 정규화하는 재스케일링 절차를 도입한다. 재스케일링 전후의 기록 플롯(records plot)을 비교한 결과, 원본 데이터는 i.i.d. 가정을 위배하지만 재스케일링 후 데이터는 기록 발생 빈도가 로그 패턴을 따르며 95 % 신뢰구간 내에 머무른다. 이는 관측값이 독립이고 동일한 분포를 따른다는 전제에 부합한다. i.i.d. 가정이 성립하면, 극단값 초과 사건들의 도착 과정은 동질 포아송 과정(Homogeneous Poisson Process)으로 모델링될 수 있다. 저자는 포아송 강도 λ를 추정하기 위해 최대우도 추정(MLE)과 베이지안 접근을 모두 사용한다. 베이지안 사전분포는 감마분포(Gamma)로 설정하고, 마르코프 체인 몬테카를로(MCMC) 샘플링을 통해 λ의 사후분포를 얻는다. 결과적으로 λ는 평균 약 0.12 사건/일(구체적 수치는 논문에 명시)이며, 95 % 신뢰구간을 제공한다. 포아송 과정의 특성을 활용하면, 특정 시간 구간 T(예: 30일) 내에 발생할 초과 공유 게시물 수 N(T)는 포아송 분포를 따른다. λ에 대한 사후분포와 결합한 혼합 포아송 모델을 통해, “다음 한 달에 250 K 공유를 초과하는 게시물이 5건 이상 발생할 확률”과 같은 예측을 정량적으로 제공한다. 이는 정책 입안자, 플랫폼 운영자, 그리고 위험 관리 담당자가 허위정보 확산 위험을 사전에 평가하고 대응 전략을 수립하는 데 실용적인 도구가 된다. 논문의 마지막 부분에서는 연구 결과의 일반화 가능성을 논의한다. 현재 데이터는 미국 내 공개 페이스북 페이지에 한정돼 있어, 소규모 페이지, 비공개 그룹, 혹은 트위터·인스타그램·틱톡 등 다른 플랫폼에 그대로 적용하기는 어렵다. 또한, 데이터 수집이 2014년까지이며, 이후 알고리즘 변화와 사용자 행동 변화를 반영하지 않는다. 따라서 향후 연구에서는 최신 데이터와 다양한 플랫폼을 포함한 확장 연구가 필요하다. 요약하면, 이 논문은 극단값 이론과 포아송 과정, 베이지안 추정을 결합해 온라인 허위정보의 ‘극히 바이럴’ 현상을 정량적으로 모델링하고, 그 발생 빈도와 불확실성을 명시적으로 제시함으로써, 디지털 미디어 환경에서 허위정보 위험을 과학적으로 평가할 수 있는 새로운 방법론을 제공한다.

온라인 소셜 미디어에서 바이럴 허위정보의 통계적 특성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기