트위터와 인구통계 보정으로 본 2011년 싱가포르 대통령 선거 감성 분석
본 논문은 2011년 싱가포르 대통령 선거 기간 동안 수집한 16,616개의 트위터 데이터를 활용해 후보별 감성 점수를 산출하고, 인구조사와 컴퓨터 활용률을 기반으로 한 가중치 보정을 적용해 실제 투표 결과를 예측한다. 예측값은 실제 결과와 차이가 크며, 데이터 편향, 가정의 불합리성, 그리고 모델 검증 부족이 주요 한계로 지적된다.
저자: Murphy Choy, Michelle L.F. Cheong, Ma Nang Laik
본 논문은 2011년 싱가포르 대통령 선거를 대상으로 트위터 기반 감성 분석을 수행하고, 인구조사와 컴퓨터 활용률 데이터를 이용해 온라인 여론의 표본 편향을 보정함으로써 후보별 득표율을 예측하려는 시도를 기술한다. 연구자는 2011년 8월 17일부터 25일까지 총 16,616개의 트윗을 수집했으며, 후보 이름(영문)만을 키워드로 사용해 데이터를 추출하였다. 중복 트윗과 중복 사용자 계정을 제거한 뒤, 자체 구축한 감성 어휘 사전을 적용해 각 트윗의 긍정·부정 점수를 산출하고, 후보별 긍정 감성 점수를 집계하였다.
감성 점수만으로는 온라인 사용자와 전체 유권자 사이의 차이를 보정하기에 부족하다고 판단한 저자는 싱가포르 인구조사(2010)와 정부 조사(IDA 2009)에서 제공된 연령별 인구 비율 및 컴퓨터 활용률을 활용해 ‘census correction’ 프레임워크를 설계하였다. 이 프레임워크는 두 가지 가정을 전제로 한다. 첫째, 일반선거에서 투표한 유권자는 정당 라인에 따라 투표한다는 가정; 둘째, 온라인에서 표현된 감성이 전체 유권자의 의견을 대변한다는 가정이다. 이러한 가정 하에 연령별 PAP 지지율을 선형 프로그래밍으로 추정하고, 온라인·오프라인 인구를 각각 PAP·비PAP 지지자 비율에 따라 배분하였다. 이후 각 연령대별 온라인 감성 점수를 PAP·비PAP 비율에 가중합산해 후보별 전체 득표율을 계산하였다.
결과적으로 후보별 온라인 감성 비율은 다음과 같다: TT 49.1%, TCB 50.9%, TJS 59.3%, TKL 40.7%. 이를 연령별 온라인·오프라인 비율과 결합해 최종 예측 득표율을 도출했으며, 예측값은 TT 28.6%, TCB 29.7%, TJS 24.7%, TKL 17.1%로 나타났다. 실제 선거 결과와 비교하면 TT와 TCB는 각각 6.6%p와 5.2%p 낮게, TKL은 12.2%p 과대 예측되는 등 큰 차이가 발생하였다.
논문은 방법론을 상세히 기술하지 않은 채 수식만 제시하고, 핵심 변수들의 실제 값과 가중치 적용 과정이 누락돼 재현 가능성이 낮다. 데이터 수집이 영어 트윗에 국한된 점, 풍자·패러디 처리 미비, 인구조사와 컴퓨터 활용률을 단순 비율로 적용한 점 등은 표본 편향을 충분히 보정하지 못한다는 비판을 받을 수 있다. 또한 두 가지 기본 가정이 현실과 동떨어져 있어, 특히 대통령 선거가 비당파적 특성을 갖는 싱가포르 상황에서 ‘정당 라인 투표’ 가정은 타당하지 않다. 검증 절차도 예측값과 실제값을 단순 비교하는 수준에 머물러, 통계적 유의성 검증이나 교차 검증이 결여돼 모델의 신뢰성을 평가하기 어렵다.
결론적으로, 트위터 데이터를 활용한 정치 예측에 대한 흥미로운 시도임에도 불구하고, 데이터 편향, 가정의 부적절성, 모델 검증 부족 등으로 인해 실제 선거 결과를 정확히 예측하는 데 한계가 크다. 향후 연구에서는 다언어 트윗 수집, 정교한 감성 사전 구축, 표본 가중치의 통계적 검증, 그리고 오프라인 여론 조사와의 병합 모델을 통해 예측 정확도를 높이는 방향이 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기