언론을 위한 사회운동 분석·예측 도구 SMART
초록
SMART는 Reddit과 뉴스 기사에서 #MeToo와 #BlackLivesMatter 관련 데이터를 수집·전처리하고, 감정·주제 추출 후 트랜스포머 기반 예측 엔진(DEEP)과 회고 분석 엔진(REAR)으로 사회운동의 규모와 감정 변화를 시계열적으로 파악한다. 2024년 미국 대선 전후를 대상으로 한 사례 연구에서 뉴스 매체는 주요 정치 사건(KPE) 전후에 논조와 양상이 크게 변하지만, Reddit에서는 변동이 미미하거나 감소하는 패턴을 보였다.
상세 분석
본 논문은 사회운동(SM)과 지속가능개발목표(SDG) 연계 보도를 지원하기 위해 설계된 SMART 시스템을 상세히 제시한다. 데이터 수집 단계에서는 SDG‑특화 키워드 집합을 기반으로 Reddit API와 NewsAPI를 활용해 매일 50,000건 이상의 문서를 확보한다. 수집된 원문은 키워드 확장을 위해 KeyBERT와 Amazon Comprehend를 적용해 고빈도 연관어를 추출하고, RoBERTa‑base 기반 GoEmotions 모델로 28가지 감정 차원을 정량화한다. 텍스트 임베딩은 MiniLM‑L6‑v2 모델을 이용해 ChromaDB에 저장, 메타데이터는 MongoDB와 관계형 DB에 연동한다.
필터링은 9단계(L0~L8) 계층 구조로 구현된다. L0은 목표 SM 해시태그(#MeToo, #BLM)를 직접 포함한 문서이며, 이후 단계는 고연관어 집합(상위 99번째 백분위)와의 포함 비율을 기준으로 점진적으로 완화한다. 본 연구에서는 L5(20% 이상 포함) 레이어를 주 분석 대상으로 선택, 정밀도와 표본 크기 간 균형을 맞췄다.
분석 엔진은 두 축으로 나뉜다. DEEP은 과거 시계열(Ht)과 사용자가 지정한 KPE(키 정치 이벤트) 정보를 입력으로, 트랜스포머 기반 모델이 미래의 논조·볼륨·감정 강도를 Student‑t 분포 형태로 예측한다. 반면 REAR는 회고적 탐색을 지원, 사건 전후의 평균 차이, 효과 크기(Cohen’s d), 부트스트랩 신뢰구간 등을 제공한다. 가설 검증은 퍼뮤테이션 테스트(10,000 반복)와 Benjamini‑Hochberg FDR 보정을 적용해 통계적 유의성을 확보한다.
사례 연구에서는 36개의 KPE를 정의하고, ±1,3,5,7,10일 윈도우별로 뉴스와 Reddit의 문서량 변화를 비교했다. BLM에 대해 뉴스 매체는 모든 윈도우에서 중대 효과(d≈0.5~1.2, p<0.01)를 보였으며, 특히 ±7일 구간에서 28% 증가를 기록했다. 반면 Reddit에서는 오히려 긴 윈도우(±7,±10일)에서 음의 효과(d≈‑0.5, p<0.05)가 나타났다. #MeToo의 경우도 유사한 패턴이 관찰되었지만, 감정 강도(분노, 슬픔 등) 증가는 뉴스에서만 통계적으로 유의했다.
핵심 기여는 (1) 1년간 2.7M Reddit 포스트와 1M 뉴스 기사로 구성된 대규모 다중소스 데이터셋 공개, (2) 언론인과의 공동 설계(co‑design) 과정을 통해 실무 요구를 반영한 시스템 구축, (3) 플랫폼 간(뉴스 vs Reddit) SM 동향 차이를 최초로 정량화, (4) KPE‑중심 사건 영향 프레임워크 제시이다. 제한점으로는 Reddit 사용자층의 편향성, 감정 라벨링의 문화적 차이, 그리고 예측 모델이 외부 변수(예: 정책 변화) 를 완전히 포착하지 못한다는 점을 들 수 있다. 향후 연구에서는 다국어 확장, 실시간 대시보드 구현, 그리고 정책 입안자를 위한 시나리오 기반 시뮬레이션을 목표로 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기