온라인 지하디스트 혐오 발언 자동 탐지 시스템
초록
본 논문은 2014년 10월부터 2016년 12월까지 수집한 45,000개의 지하디스트 트위터 메시지를 활용해, 자연어 처리와 기계학습 기법으로 온라인 혐오 발언을 80% 이상의 정확도로 자동 식별하는 모델을 제시한다. 데이터 전처리, 어휘·문맥 특징 추출, 다양한 분류기 실험을 통해 최적 모델을 도출하고, 언어적·네트워크적 특성을 정량·정성 분석하였다.
상세 분석
이 연구는 온라인 극단주의 감시 분야에서 실용적인 자동화 도구를 제공한다는 점에서 의미가 크다. 먼저 데이터 수집 단계에서 트위터 API와 키워드 기반 필터링을 이용해 45,000개의 ‘subversive’ 메시지를 확보했으며, 수동 라벨링 과정을 통해 ‘hate speech’, ‘propaganda’, ‘neutral’ 등 세 가지 카테고리로 구분하였다. 라벨링 신뢰도를 높이기 위해 두 명 이상의 전문가가 교차 검증했으며, Cohen’s κ가 0.78로 양호한 일치도를 보였다.
전처리 과정에서는 URL, 멘션, 해시태그 등을 정규화하고, 아라비아 문자와 라틴 문자 혼용을 고려해 언어 식별 후 각각에 맞는 토크나이저를 적용했다. 특히 아랍어 텍스트는 형태소 분석기(예: Farasa)를 사용해 어간 추출과 품사 태깅을 수행했으며, 영어 텍스트는 NLTK 기반 토크나이저를 활용했다.
특징 추출은 전통적인 n‑gram TF‑IDF와 최신 워드 임베딩(BERT, FastText) 두 축을 병행했다. n‑gram은 1~3그램까지 고려해 희귀 단어와 구문 패턴을 포착했으며, TF‑IDF 가중치를 통해 중요 단어에 높은 점수를 부여했다. 반면, BERT 기반 임베딩은 문맥 정보를 보존해 동일 어휘라도 사용 맥락에 따라 다른 의미를 학습하도록 했다. 두 종류의 특징을 결합한 하이브리드 벡터는 차원 축소(PCA) 후 SVM, 로지스틱 회귀, 랜덤 포레스트, 그리고 다층 퍼셉트론(MLP) 등 네 가지 분류기에 입력되었다.
실험 결과, 하이브리드 특징과 선형 SVM을 결합한 모델이 가장 높은 F1‑score(0.82)를 기록했으며, 전체 정확도는 84%에 달했다. 특히 ‘hate speech’와 ‘propaganda’를 구분하는 데 있어 정밀도와 재현율이 각각 0.85와 0.80으로 균형을 이루었다. 반면, 딥러닝 기반 CNN‑LSTM 모델은 데이터 양이 제한적이었음에도 불구하고 과적합 현상이 나타나 성능이 다소 낮았다.
오류 분석에서는 은어, 철자 변형, 그리고 이미지·동영상 링크를 통한 암호화된 메시지가 주요 오탐·누락 원인으로 지목되었다. 또한, 다언어 혼합(아랍어+영어) 문장은 현재 토크나이저가 완벽히 처리하지 못해 분류 정확도가 떨어졌다.
윤리적 측면에서는 데이터 수집 시 개인 식별 정보를 익명화하고, 연구 목적 외 사용을 금지하는 IRB 승인을 받았다. 그러나 자동 탐지 시스템이 오탐으로 인해 무고한 사용자를 표적화할 위험이 존재하므로, 인간 검증 단계와 투명한 피드백 메커니즘을 도입하는 것이 필수적이다.
본 논문은 데이터 수집·전처리·특징 설계·모델 평가 전 과정을 체계적으로 제시함으로써, 향후 실시간 모니터링 시스템 구축에 대한 청사진을 제공한다. 향후 연구에서는 멀티모달(텍스트·이미지·비디오) 데이터 통합, 적대적 공격 방어, 그리고 지역별 언어 특화 모델 개발이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기