참여자와 어휘 일관성 기반 사이버불링 탐지
본 논문은 소수의 사전 정의된 불링 단어(시드)를 시작점으로, 사용자 간 상호작용과 텍스트 특징을 동시에 학습하여 새로운 불링 어휘와 가해자·피해자를 자동으로 식별하는 모델을 제안한다. 참가자‑어휘 일관성(PVC) 목표함수를 교대 최소제곱(ALS) 방식으로 최적화하고, 트위터와 Ask.fm 데이터에서 기존 방법보다 높은 재현율과 정밀도를 보였다.
저자: Elaheh Raisi, Bert Huang
이 논문은 급변하는 사이버불링 언어와 복합적인 사회적 관계를 동시에 고려하는 새로운 탐지 프레임워크를 제시한다. 기존 연구들은 주로 라벨링된 데이터에 의존하거나, 정적인 욕설 사전만을 활용해 텍스트 분류 모델을 구축했다. 그러나 이러한 접근은 (1) 최신 슬랭을 포착하지 못하고, (2) 가해자와 피해자의 관계 정보를 무시하며, (3) 라벨링 비용이 크게 소요된다는 한계가 있다. 이를 극복하기 위해 저자들은 ‘참여자‑어휘 일관성(Participant‑Vocabulary Consistency, PVC)’ 모델을 고안했다.
PVC는 세 종류의 파라미터를 학습한다. 첫째, 각 사용자 u_i에 대해 가해자 점수 b_i를 할당해 그 사용자가 얼마나 자주 다른 사람을 괴롭히는지를 정량화한다. 둘째, 피해자 점수 v_i는 해당 사용자가 얼마나 자주 괴롭힘을 당하는지를 나타낸다. 셋째, 각 n‑gram 특징 w_k는 해당 단어가 불링을 나타낼 확률적 지표가 된다. 메시지 m은 발신자 s(m)와 수신자 r(m)를 가지고, 사회적 불링 점수는 b_{s(m)} + v_{r(m)} 로 정의된다.
목표함수 J(b,v,w;λ)는 L2 정규화와 함께, 모든 메시지‑특징 쌍에 대해 (b_{s(m)} + v_{r(m)} – w_k)^2 를 최소화하도록 설계되었다. 이는 ‘사회적 점수와 어휘 점수의 일관성’이라는 직관을 수학적으로 구현한다. 또한, 전문가가 제공한 시드 단어 집합 S에 속하는 특징은 w_k = 1 로 고정하는 제약을 두어, 초기 고정밀 불링 지시어를 모델에 주입한다.
J는 전역적으로 비볼록하지만, b, v, w 각각을 고정한 채 나머지를 최적화하면 폐쇄형 해를 갖는 볼록 문제로 변환된다. 구체적인 업데이트 식은 다음과 같다. b_i는 i가 보낸 모든 메시지에 포함된 w_k와 해당 수신자의 v 점수를 평균해 계산하고, v_j는 j가 받은 모든 메시지에 대한 w_k와 발신자의 b 점수를 평균한다. w_k는 해당 n‑gram을 포함하는 모든 메시지에 대한 (b_{s(m)} + v_{r(m)}) 평균값으로 갱신된다. 이러한 교대 최소제곱(ALS) 절차를 수렴할 때까지 반복함으로써, 사용자와 어휘 간의 일관된 점수 매핑을 얻는다.
실험은 두 주요 소셜 플랫폼, 트위터와 Ask.fm을 대상으로 진행되었다. 트위터 데이터는 욕설 사전을 이용해 초기 크롤링하고, @‑reply 관계를 추출해 180 355명의 사용자와 296 308개의 트윗을 확보했다. Ask.fm 데이터는 기존 연구에서 제공한 질문‑답변 쌍을 사용해 41 833명의 사용자와 286 767개의 QA 페어를 구축했다. 두 데이터 모두 중복, 리트윗, 익명 질문 등을 제거해 정제하였다.
시드 단어는 전체 금칙어 사전에서 무작위로 소규모(수십 개)만 선택했으며, 나머지 단어는 ‘보류된 목표 단어’로 설정해 회수율을 측정했다. 비교 대상은 (1) 동시출현(co‑occurrence) 방식으로, 시드 단어와 함께 나타나는 모든 단어에 점수 1을 부여하고 나머지는 0으로 처리하는 단순 방법, (2) 동적 질의 확장(DQE)으로, 시드 단어가 포함된 메시지를 재귀적으로 확장해 단어 빈도 기반 점수를 부여하는 최신 방법이다.
평가 지표는 ROC 곡선, true positive rate, false positive rate, 그리고 목표 단어와 전체 단어 평균 점수 차이(리프트)였다. 결과는 PVC가 DQE보다 높은 재현율을 유지하면서 정밀도도 크게 떨어지지 않아, 두 기준 사이에서 가장 균형 잡힌 성능을 보였음을 보여준다. 트위터에서는 목표 단어 평균 점수가 전체 평균보다 약 1.5 표준편차 높게 나타났으며, Ask.fm에서도 0.8 표준편차 상승했다. 반면 DQE는 각각 0.24와 0.01 표준편차에 불과했다. 동시출현 방식은 리프트가 거의 없었다.
정성적 분석에서는 상위 1 000개 고점수 단어를 검토한 결과, 성적, 인종, 성소수자 등에 대한 최신 혐오 표현과 신조어가 다수 포함돼 있었다. 표 1에 제시된 예시 단어들은 ‘sh*tstain’, ‘c*nt lying’, ‘blackowned’, ‘n*gger’ 등으로, 기존 사전에 없던 새로운 변형 형태를 포함한다. 또한, PVC가 산출한 높은 피해자 점수를 가진 사용자들을 살펴보면 실제로 괴롭힘을 당하고 있거나, 가해자 점수가 높은 사용자는 공격적인 언어를 빈번히 사용하는 것이 확인되었다. Figure 3에 제시된 Ask.fm 대화 예시에서도 명백한 불링 발언과 그에 대한 반응이 관찰된다.
결론적으로, 이 연구는 약한 감독 하에 사용자 간 관계와 텍스트 특징을 동시에 학습함으로써, 기존 텍스트‑기반 분류보다 더 풍부하고 최신의 사이버불링 신호를 포착할 수 있음을 입증한다. 향후 연구에서는 확률적 그래프 모델을 도입해 노이즈와 불확실성을 정량화하고, 실시간 모니터링 및 자동 개입 시스템에 적용하는 방향을 모색하고 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기