영국 정부 청원 분석 언제 어디서 무엇을
초록
본 연구는 2015‑2017년 영국 청원 데이터를 10,950건(총 3천050만 서명)으로 수집해 LDA 토픽 모델링으로 주요 이슈를 추출하고, 시간적 변동과 지역적 특성을 분석한다. 일부 이슈는 전국적으로 지속되지만, 브렉시트 등 외부 사건에 따라 급격히 변동하는 이슈도 확인했다. 또한, 청원 서명자의 지리적 분포를 기반으로 6개의 지역 클러스터를 도출했으며, Ipsos MORI 설문과 비교해 모델의 타당성을 검증하였다.
상세 분석
이 논문은 영국 정부 청원 시스템을 ‘시민 의견의 실시간 센서’로 활용한다는 관점에서 출발한다. 2015‑2017년 사이에 제출된 10,950건의 청원을 수집했으며, 이는 약 3천050만 서명을 포함한다. 텍스트 전처리 단계에서는 HTML 태그 제거, 소문자 변환, 불용어(stop‑words)와 영국식 맞춤법 통일 작업을 수행하고, 토큰화를 거쳐 LDA(Latent Dirichlet Allocation) 모델에 입력하였다. 토픽 수는 퍼플렉시티와 인간 검증을 병행해 20개로 최적화했으며, 각 토픽은 10‑15개의 핵심 단어와 대표 청원으로 라벨링했다.
시간적 분석에서는 월별 토픽 비중을 시계열로 시각화했으며, 2016년 6월 브렉시트 국민투표와 같은 주요 사건이 특정 토픽(예: ‘EU 탈퇴’, ‘이민 정책’)의 급등을 초래함을 확인했다. 반면 ‘환경 보호’, ‘보건 의료’ 등은 비교적 안정적인 패턴을 보였다.
지리적 분석에서는 청원 서명자의 우편번호를 영국 의회 선거구(Constituency) 수준으로 매핑하고, 각 선거구별 토픽 비중을 정규화했다. 이를 기반으로 K‑means 군집화를 적용해 6개의 지역 클러스터를 도출했는데, 예를 들어 북동부는 ‘농업·지역 개발’ 토픽에, 런던 중심부는 ‘주거·교통’ 토픽에 높은 관심을 보였다. 일부 토픽은 전국적으로 고르게 분포했지만, ‘지역 경제 활성화’와 같은 이슈는 특정 지역에 국한되는 경향을 나타냈다.
모델 검증을 위해 영국 여론 조사 기관 Ipsos MORI가 발표한 상위 10개 이슈와 청원 토픽을 비교했으며, 70% 이상 일치하는 결과를 얻어 LDA 기반 토픽 추출의 신뢰성을 입증했다.
이 연구는 대규모 온라인 청원 데이터를 NLP와 공간 통계 기법으로 결합함으로써, 정책 입안자가 ‘무엇을’, ‘언제’, ‘어디서’ 시민이 우려하는지를 정량적으로 파악할 수 있는 프레임워크를 제공한다는 점에서 의의가 크다. 또한, 실시간 감시 체계 구축, 지역 맞춤형 정책 설계, 그리고 여론 급변에 대한 선제적 대응 등 실용적 활용 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기