선거와 경제 여론: 트위터 데이터로 보는 미국 대통령 선거
초록
본 논문은 2012년 미국 대통령 선거 기간 동안 트위터에 게시된 수백만 건의 트윗을 대상으로 감성 분석과 토픽 모델링을 결합한 새로운 공공 여론 탐지 프레임워크를 제시한다. 이를 통해 경제 관련 이슈에 대한 유권자들의 실시간 감정 흐름과 핵심 논점을 파악하고, 전통적인 여론 조사와 비교했을 때 비용·시간 효율성을 강조한다.
상세 분석
이 연구는 기존 선거 분석 연구가 주로 단일 텍스트 마이닝 기법(예: 감성 분석 혹은 토픽 모델링)만을 적용해 왔다는 점을 비판하고, 두 기법을 통합함으로써 보다 풍부한 인사이트를 도출할 수 있음을 입증한다. 데이터 수집 단계에서는 트위터 API를 활용해 2012년 10월부터 11월까지의 미국 내 사용자 2백만 명 이상이 작성한 총 4백만 건 이상의 트윗을 크롤링하였다. 키워드 필터링(‘economy’, ‘jobs’, ‘tax’, ‘unemployment’ 등)과 지리적 제한(미국 IP)으로 경제 이슈에 국한된 샘플을 추출했으며, 스팸 및 중복 제거를 위해 텍스트 전처리 파이프라인을 구축하였다.
감성 분석에는 사전 기반 VADER와 머신러닝 기반 SVM을 병합한 하이브리드 모델을 사용하였다. VADER는 트위터 특유의 이모티콘·축약어에 강점을 보였고, SVM은 도메인 특화 라벨링 데이터(약 5천 건)로 학습시켜 정확도를 84%까지 끌어올렸다. 감성 점수는 -1(극히 부정)부터 +1(극히 긍정)까지 연속형으로 정의했으며, 각 트윗에 대해 긍정·부정·중립 라벨을 부여하였다.
주제 모델링은 LDA(Latent Dirichlet Allocation)를 기반으로 20개의 토픽을 추출했으며, 토픽 수는 퍼플렉시티와 인간 평가를 동시에 고려해 최적화하였다. 각 토픽은 ‘실업률’, ‘세금 정책’, ‘소득 불평등’, ‘산업 구조 변화’ 등 구체적인 경제 하위 이슈로 라벨링되었다. 토픽-감성 매트릭스를 구축해 특정 이슈에 대한 감성 흐름을 시계열로 시각화함으로써, 후보자별 정책 발표 직후 감성 급등·급락 현상을 정량적으로 포착했다.
결과 분석에서는 민주당 후보와 공화당 후보에 대한 경제 이슈 감성이 시간에 따라 어떻게 교차하는지를 보여준다. 예를 들어, 2012년 10월 중순에 발표된 ‘중산층 세금 감면’ 정책에 대해 공화당 지지자들의 감성 점수가 평균 +0.32로 상승했으며, 동시에 민주당 지지자들의 감성은 -0.15로 하락했다. 또한, ‘실업률 상승’에 대한 토픽은 전반적으로 부정적 감성을 유지했지만, 특정 주(예: 오하이오, 미시간)에서는 지역 경제 회복 기대감으로 긍정적 변동을 보였다.
이와 같은 정량적 결과는 전통적인 여론 조사와 비교했을 때, 실시간성·세분화된 지리·인구통계적 차원에서 우수함을 입증한다. 특히, 트위터 데이터는 비용이 저렴하고, 설문 설계·표본 추출 과정이 필요 없으며, 급변하는 정치·경제 상황에 즉각적으로 반응할 수 있다는 장점을 강조한다. 다만, 트위터 사용자층이 전체 유권자를 대표하지 못한다는 한계와, 자동 감성 분석의 오분류 위험성을 논의하며, 향후 연구에서는 멀티모달 데이터(이미지·동영상)와 네트워크 분석을 결합해 여론의 구조적 특성을 더 깊이 탐구할 것을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기