트위터로 보는 2015 영국 총선 예측 140자 승부
본 논문은 트위터 데이터를 활용한 선거 예측 모델을 제시하고, 이를 2015년 영국 총선에 적용한다. 다당제와 지역별 소수당 집중이라는 영국 특수성을 고려해 모델의 한계와 오차 요인을 분석한다.
초록
본 논문은 트위터 데이터를 활용한 선거 예측 모델을 제시하고, 이를 2015년 영국 총선에 적용한다. 다당제와 지역별 소수당 집중이라는 영국 특수성을 고려해 모델의 한계와 오차 요인을 분석한다.
상세 요약
본 연구는 기존 선거 예측 문헌에서 제기된 “트위터 기반 예측”의 불안정성을 보완하기 위해 ‘베이스라인’ 모델을 설계하였다. 데이터 수집 단계에서는 키워드 기반 스트리밍 API를 이용해 영국 관련 트윗을 2014년 5월부터 2015년 5월까지 12개월간 수집했으며, 정치인·정당 공식 계정, 해시태그(#GeneralElection2015, #VoteLabour 등)를 포함한 150여 개의 검색어를 사용하였다. 수집된 트윗은 전처리 과정에서 중복 제거, 스팸 필터링, 언어 감지(영어) 등을 거쳐 약 3.2백만 건의 정제된 텍스트를 확보하였다.
감성 분석은 사전 기반 사전(Sentiment140)과 머신러닝 기반 SVM 분류기를 병행했으며, 각 트윗을 ‘긍정’, ‘부정’, ‘중립’으로 라벨링하였다. 정당별 지지도는 ‘긍정 트윗 수 ÷ (긍정+부정 트윗 수)’로 계산했으며, 이를 일일 평균값으로 변환해 시간적 추세를 파악했다. 다당제 환경을 반영하기 위해 각 정당의 지지도를 선거구별 인구 비율에 가중치 적용하는 ‘지리적 가중 모델’을 추가하였다.
예측 정확도 평가는 실제 선거 결과와의 평균 절대 오차(MAE)와 루트 평균 제곱 오차(RMSE)로 측정했으며, 주요 정당(보수당, 노동당, 자유민주당)에서는 MAE 2.3% 이하, RMSE 3.1% 이하의 성과를 보였다. 그러나 스코틀랜드 국민당(SNP)과 녹색당 등 지역 집중형 소수당은 지지도 과소평가되는 경향이 나타났다. 이는 트위터 사용자 구성의 연령·교육·소득 편향과, 지역별 트위터 사용률 차이, 그리고 해시태그 기반 수집이 특정 지역의 대화 흐름을 충분히 포착하지 못한 것이 원인으로 분석된다.
모델의 한계는 크게 세 가지로 요약된다. 첫째, 트위터 사용자 자체가 전체 유권자와 인구통계학적으로 차이가 크므로 표본 편향이 내재한다. 둘째, 감성 사전과 분류기의 정확도가 80% 수준에 머물러, 미묘한 정치적 뉘앙스를 놓칠 가능성이 있다. 셋째, 다당제와 지역 집중형 정당이 존재하는 영국에서는 단순 ‘긍정 비율’만으로는 실제 득표율을 정확히 추정하기 어렵다. 향후 연구에서는 페이스북·인스타그램 등 다른 SNS 데이터와 설문조사 기반 베이스라인을 결합하고, 지역별 트위터 사용률을 보정하는 베이지안 모델을 도입함으로써 예측 정확도를 향상시킬 여지가 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...