온라인 토론에서 가짜 계정 군단: 소크퍼펫 행동과 탐지 연구
본 논문은 9개 온라인 토론 커뮤니티에서 3,656개의 소크퍼펫(다중 계정)과 1,623개의 계정 그룹을 식별하고, 이들의 글쓰기 스타일, 활동 패턴, 네트워크 구조가 일반 사용자와 어떻게 다른지 분석한다. 소크퍼펫은 토론 시작이 적고, 짧은 글을 쓰며, “I” 같은 1인칭 대명사를 많이 사용한다. 또한 이들은 서로 밀접하게 동시에 같은 토론에 참여하고, ego‑network의 클러스터링이 높다. 저자는 이러한 특성을 기반으로 사기성(prete…
저자: Srijan Kumar, Justin Cheng, Jure Leskovec
본 연구는 온라인 토론 커뮤니티에서 다중 계정을 이용한 사기 행위, 즉 소크퍼펫(sockpuppet) 현상을 심층적으로 조사한다. 연구자는 9개의 서로 다른 주제(뉴스, 정치, 스포츠, 엔터테인먼트 등)를 다루는 Disqus 기반 토론 커뮤니티에서 총 2,897,847명의 사용자와 62,744,175개의 포스트 데이터를 수집하였다. 소크퍼펫을 직접 라벨링할 수 없는 상황에서, 저자는 IP 주소, 포스트 시간, 토론 참여라는 세 가지 신호를 결합한 보수적인 탐지 방식을 설계한다. 구체적으로, 동일 IP에서 동일 토론에 15분 이내에 최소 3번 이상 동시에 포스팅한 계정 쌍을 소크퍼펫 후보로 정의하고, 다수의 IP를 공유하거나 다중 IP를 사용하는 계정을 제외함으로써 거짓 양성을 최소화하였다. 이 과정을 통해 1,623개의 소크퍼펫 그룹(총 3,656개의 계정)을 식별했으며, 대부분의 그룹은 두 계정으로 구성되었다.
식별된 소크퍼펫은 일반 사용자와 비교했을 때 포스트 수(699 vs. 19)와 참여 토론 수(141 vs. 7)에서 현저히 높은 활동량을 보였다. 이러한 차이를 보정하기 위해, 연구자는 포스트 수와 토론 참여 횟수를 기준으로 propensity score 매칭을 수행하여, 소크퍼펫과 활동량이 유사한 일반 사용자를 매칭시켰다.
언어적 특성 분석에서는 LIWC 카테고리, 감성 점수, 평균 단어 길이, 특수 문자 비율 등 20여 개의 텍스트 특징을 추출하였다. 결과는 다음과 같다. 첫째, 소크퍼펫은 1인칭 대명사(I, me 등)를 일반 사용자보다 현저히 많이 사용한다. 이는 기존 연구가 제시한 ‘속임수’를 위한 자기 중심적 언어와 일치한다. 둘째, 부정어 사용이 적고, 동사·접속사와 같은 기능어 사용도 낮아 전반적으로 문장이 단순하고 가독성이 떨어진다(ARI 점수 낮음). 셋째, 포스트가 커뮤니티에 의해 더 많이 다운표시·신고·삭제되는 경향을 보이며, 이는 소크퍼펫이 실제로 부정적인 평가를 받는다는 증거이다.
네트워크 측면에서는 사용자 간 답글 관계를 기반으로 유향 그래프를 구축하고, PageRank와 로컬 클러스터링 계수를 계산했다. 소크퍼펫은 일반 사용자에 비해 PageRank가 높고, ego‑network의 클러스터링 계수가 크게 높았다. 이는 소크퍼펫이 자신의 주변 사용자들 사이에서 교차적인 소통을 촉진하고, 토론 흐름에 비정상적으로 큰 영향을 미친다는 것을 의미한다. 또한, 동일 puppetmaster가 운영하는 소크퍼펫 쌍은 시간적으로 동시에 같은 토론에 참여할 확률이 일반 사용자 쌍에 비해 현저히 높았다.
소크퍼펫의 행동을 두 축으로 분류하는 새로운 taxonomy를 제시한다. 첫 번째 축은 ‘속임수성(deceptiveness)’으로, 계정 이름·프로필이 서로 얼마나 다른가에 따라 pretender(위장)와 non‑pretender(노출)로 구분한다. pretender는 동일 토론에 동시에 등장하고, 다운표시·삭제 비율이 높으며, 비밀스러운 행동 양식을 보인다. 반면 non‑pretender는 별도의 토론에 분산되어 활동하고, 글 길이와 가독성이 더 좋다. 두 번째 축은 ‘지원성(supportiveness)’으로, 한 소크퍼펫이 다른 소크퍼펫의 주장에 동의(지원)하거나 반대(반대)하는 빈도를 측정한다. 전체 쌍 중 30%는 한 소크퍼펫이 다른 소크퍼펫을 지원하고, 10%는 반대하는 것으로 나타났으며, 나머지는 중립이다. 흥미롭게도 지원자 대부분이 pretender였으며, 반대자는 pretender와 큰 연관성을 보이지 않아, 지원 행동이 의도적 여론 조작과 연관될 가능성을 시사한다.
예측 모델 구축에서는 소크퍼펫 쌍과 일반 사용자 쌍을 구분하기 위해 12개의 특징(시간 차, 동일 토론 참여 횟수, 언어 유사도, 네트워크 중심성 등)을 사용하였다. Gradient Boosting 기반 분류기는 ROC‑AUC 0.90을 달성했으며, 개별 계정이 소크퍼펫인지 판단하는 2‑class 문제에서도 ROC‑AUC 0.68을 기록하였다. 특징 중요도 분석 결과, 두 계정 간 동시 토론 참여 횟수와 상호 작용 강도가 가장 큰 기여를 했으며, 언어적 유사도와 네트워크 지표도 유의미한 보조 역할을 했다.
결론적으로, 이 논문은 대규모 실증 데이터를 기반으로 소크퍼펫의 생성 시점, 글쓰기 스타일, 네트워크 위치, 그리고 서로 간의 상호작용을 체계적으로 규명한다. 또한, 속임수성·지원성이라는 두 축을 통해 소크퍼펫을 세분화하고, 이를 활용한 자동 탐지 모델을 제시함으로써 온라인 커뮤니티의 건전성 유지와 악의적 다중 계정 사용 방지에 실질적인 기여를 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기