소셜 네트워크 온라인 극단주의자 탐지와 추적
본 논문은 트위터에 존재하는 수백만 개의 극단주의 계정을 분석해 행동 모델을 구축하고, 계정 정지 여부를 사전 예측하며, 동일 인물의 다중 계정을 매칭하고, 이전에 팔로우했던 친구들을 재팔로우할 확률을 추정한다. 마지막으로 폴리아(Pólya) 울 모델을 활용해 정지된 사용자가 새 계정을 만들 경우 효율적인 탐색 정책을 제시한다.
저자: Jytte Klausen, Christopher Marks, Tauhid Zaman
본 논문은 온라인 극단주의자가 소셜 네트워크, 특히 트위터에서 활동하면서 계정이 정지된 후에도 새로운 계정을 만들어 활동을 지속하는 문제를 해결하기 위한 일련의 운영 역량을 제시한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 극단주의 계정 정지를 사전에 예측하는 모델이다. 저자들은 2015년 한 해 동안 5천 명의 시드 계정을 중심으로 1.3백만 명 이상의 팔로워·팔로잉 관계와 4.8백만 개의 트윗을 수집하였다. 각 계정에 대해 계정 생성 시점, 팔로워·팔로잉 수, 트윗 수, 위치 공개 여부, 보호 계정 여부, 인증 여부 등 12개의 정량적 피처와 2,376개의 이진 팔로잉 관계 피처를 추출하였다. 이를 기반으로 L1 정규화 로지스틱 회귀 모델을 학습시켰으며, 교차 검증을 통해 정규화 파라미터 λ=10이 최적임을 확인했다. 모델은 89개의 피처가 비제로 계수를 가지며, 특히 특정 팔로잉 관계가 정지 예측에 큰 영향을 미친다는 결과를 도출했다. 두 번째는 동일 인물이 만든 다중 계정을 매칭하는 기술이다. 계정명, 프로필 사진, 배너 이미지와 같은 메타데이터를 문자열 유사도와 이미지 해시를 이용해 비교하고, 네트워크 구조(공통 팔로워·팔로잉)와 행동 패턴(트윗 시간대, 해시태그 사용 빈도)까지 포함한 복합 점수를 계산한다. 베이지안 매칭 프레임워크를 적용해 두 계정이 동일 인물일 확률을 추정하고, 임계값을 초과하는 경우 동일 인물로 판단한다. 세 번째는 정지된 사용자가 재가입 후 재팔로우할 친구들을 예측하는 방법이다. 과거 팔로우 관계, 친구의 활동도(트윗 빈도, 리트윗 수), 친구의 네트워크 중심성(인디그리·아웃디그리) 등을 피처로 사용해, 로지스틱 회귀와 베이지안 네트워크를 결합한 모델을 구축하였다. 실험 결과, 재팔로우 확률이 높은 친구들을 사전에 식별함으로써 새로운 계정 탐색 효율을 크게 향상시킬 수 있음을 보였다. 마지막으로 제시된 폴리아 울 기반 네트워크 탐색 모델은 정지된 사용자가 새 계정을 만들 경우, 탐색자가 제한된 비용으로 여러 노드의 이웃을 조회하면서 목표 계정을 찾는 문제를 수학적으로 정형화한다. 기존 다중 울 모델을 확장해 한 단계에서 여러 노드를 동시에 조회할 수 있게 하였으며, 각 노드의 탐색 성공 확률과 비용을 동적으로 업데이트한다. 최적 정책은 “가장 높은 기대 효용(성공 확률 대비 비용)이 있는 노드부터 순차 탐색”으로 증명되었으며, 시뮬레이션을 통해 기존 탐색 전략 대비 탐색 횟수와 비용이 평균 30% 이상 절감되는 효과를 확인했다. 논문은 또한 기존 연구와의 차별점을 강조한다. 이전 연구들은 ISIS 사용자 탐지, 해시태그 기반 극단주의 콘텐츠 분류, 봇 탐지 등에 초점을 맞추었으나, 본 연구는 계정 정지 사전 예측, 다중 계정 매칭, 재팔로우 예측, 그리고 비용 효율적인 네트워크 탐색이라는 네 가지 실용적인 역량을 통합적으로 제공한다. 한계점으로는 정지 사유를 명시적으로 구분하지 못하고 모든 정지를 극단주의와 연결하는 가정, 트위터 외 다른 플랫폼에 대한 일반화 검증 부족, 그리고 데이터 수집 시점이 2015년으로 제한적이라는 점을 들 수 있다. 향후 연구에서는 다양한 소셜 미디어와 최신 데이터셋을 활용해 모델을 확장하고, 정지 사유별 라벨링을 통해 보다 정교한 예측 모델을 개발할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기