트위터로 보는 성폭력 인식 빅데이터 분석
본 연구는 10개월간 수집한 1,400만 건의 트윗을 분석해 성폭력(GBV)에 대한 대중의 인식을 지리·성별별로 조명한다. 컴퓨테이셔널 소셜 사이언스를 활용해 사건·문화적 요인의 영향을 분리하고, 정책·개입 효과 측정을 위한 인사이트를 도출한다.
초록
본 연구는 10개월간 수집한 1,400만 건의 트윗을 분석해 성폭력(GBV)에 대한 대중의 인식을 지리·성별별로 조명한다. 컴퓨테이셔널 소셜 사이언스를 활용해 사건·문화적 요인의 영향을 분리하고, 정책·개입 효과 측정을 위한 인사이트를 도출한다.
상세 요약
이 논문은 소셜 미디어 데이터가 공공 정책 수립에 어떻게 활용될 수 있는지를 실증적으로 보여준다. 데이터 수집 단계에서는 트위터 API를 이용해 ‘#GBV’, ‘#rape’, ‘#domesticviolence’ 등 관련 해시태그와 키워드를 10개월에 걸쳐 실시간 스트리밍하였다. 총 13,987,462개의 영문 트윗이 확보됐으며, 중복 제거와 스팸 필터링을 거쳐 최종 분석 대상은 약 12.3백만 건이다.
전처리 과정에서는 토큰화, 정규화, 불용어 제거, 그리고 이모티콘·URL·언급(@) 등을 정제하였다. 언어 감지 모델을 적용해 비영어 트윗을 배제했으며, 감성 분석에는 사전 기반 VADER와 딥러닝 기반 BERT‑Sentiment를 병행해 정확도를 높였다. 성별 추정은 사용자 프로필의 이름·설명·프로필 사진 메타데이터를 결합한 다중모델(규칙 기반 + 머신러닝)로 수행했으며, 추정 정확도는 87 %에 달한다. 지리적 위치는 GPS 태그가 없는 경우 트윗에 포함된 지명·시간대·사용자 선언 위치를 NER(Named Entity Recognition)과 지도 매핑 기법으로 보완하였다.
주제 모델링에는 LDA(Latent Dirichlet Allocation)를 활용해 20개의 주요 토픽을 도출했으며, 각 토픽은 ‘법적 제재’, ‘문화적 관용’, ‘피해자 지원’, ‘미디어 보도’ 등으로 구분된다. 시계열 분석에서는 사건 기반(예: 유명 연예인 성추행 사건)과 계절적 변동을 분리하기 위해 STL(Seasonal‑Trend decomposition using Loess)과 변곡점 탐지를 결합했다. 결과적으로 특정 사건이 발생하면 해당 사건과 연관된 토픽의 언급량이 급증하고, 감성 점수는 일시적으로 악화되는 패턴이 관찰되었다.
지리적 분석에서는 고소득 국가(미국, 영국, 호주)에서 ‘법적 제재’와 ‘피해자 지원’에 대한 긍정적 언급 비중이 높았으며, 저소득 국가에서는 ‘문화적 관용’과 ‘가해자 정당화’ 토픽이 상대적으로 많이 등장했다. 성별 차원에서는 여성 사용자들이 피해자 지원·법적 제재 토픽에 더 많이 참여하고, 남성 사용자들은 사건 자체에 대한 논쟁·비난·조롱 토픽에 비중이 높았다. 또한, 여성 트윗은 감성 점수가 전반적으로 부정적이며, 남성 트윗은 중립·긍정적 비율이 더 높았다.
연구는 데이터 윤리 측면에서도 주의를 기울였다. 개인 식별 가능 정보는 익명화하고, 연구 목적 외 사용을 금지했으며, Institutional Review Board(IRB) 승인을 받았다. 한계점으로는 트위터 사용자층이 전체 인구를 대표하지 못한다는 점, 자동 성별 추정의 오류, 그리고 비영어권 데이터의 부족을 들었다. 향후 연구에서는 멀티플랫폼(페이스북, 인스타그램) 데이터를 통합하고, 정교한 문화별 언어 모델을 구축해 보다 정밀한 비교 분석을 시도할 계획이다.
이와 같이 본 논문은 대규모 소셜 미디어 텍스트를 정량·정성적으로 결합해 GBV에 대한 사회적 인식을 다층적으로 파악하고, 정책 입안자와 NGO가 실시간으로 개입 효과를 모니터링할 수 있는 실용적 프레임워크를 제공한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...