블로그 마이닝을 위한 파키스탄 정치 블로그 데이터셋
초록
본 논문은 파키스탄 정치 블로그스피어에서 수집한 새로운 데이터셋(PBM)을 소개한다. 데이터 수집·정제·표준화 과정을 상세히 기술하고, 블로그 검색, 정치적 감성 분석, 영향력 블로거 식별, 포스트 군집화 등 여러 텍스트 마이닝 작업에 적용한 사례를 제시한다. 데이터는 무료로 공개되어 향후 블로그 마이닝 연구의 표준 평가 기반으로 활용될 수 있다.
상세 분석
본 연구는 웹 2.0 시대에 급증하는 블로그 텍스트를 체계적으로 분석하기 위한 표준 데이터셋의 부재를 지적하고, 이를 메우기 위해 파키스탄 정치 블로그스피어를 대상으로 자체 데이터셋을 구축하였다. 데이터 수집 단계에서는 RSS 피드와 웹 크롤러를 활용해 2015‑2020년 사이에 작성된 12,000여 개의 블로그 포스트와 3,500여 개의 댓글을 확보했으며, 각 포스트에 대해 메타데이터(작성자 ID, 작성일, 카테고리, 태그 등)를 추출하였다. 수집된 원시 텍스트는 HTML 태그 제거, 인코딩 정규화, 중복 문서 식별 과정을 거쳐 9,800개의 고품질 문서로 정제되었다.
전처리 과정에서는 토큰화, 불용어 제거, 형태소 분석을 수행하고, 어간 추출과 표제어화(lemmatization)를 병행함으로써 언어적 변형을 최소화하였다. 특히 파키스탄에서 사용되는 우르두어와 영어 혼용 텍스트에 대해 다중언어 형태소 분석기를 적용해 언어 구분 및 통합 어휘 사전을 구축하였다. 라벨링은 정치적 입장(보수·진보·중립)과 감성(긍정·부정·중립) 두 축으로 수행했으며, 전문가 5인의 주관적 판단을 기반으로 크로스 검증을 거쳐 라벨 신뢰도를 0.87(Cohen’s κ)로 확보하였다.
데이터셋의 구조는 JSON 기반 스키마로 정의되어, 각 문서는 ‘post_id’, ‘author’, ‘timestamp’, ‘title’, ‘content’, ‘tags’, ‘category’, ‘sentiment’, ‘stance’ 필드를 포함한다. 이러한 표준화된 포맷은 기존 텍스트 마이닝 파이프라인에 바로 적용 가능하도록 설계되었으며, 공개 API와 샘플 코드가 함께 제공된다.
본 논문은 구축된 데이터셋을 이용해 네 가지 대표적 작업을 실험하였다. 첫째, TF‑IDF와 BM25 기반 블로그 검색 엔진을 구현해 평균 정밀도@10이 0.78에 도달하였다. 둘째, 다중 클래스 감성 분류에서는 BERT‑ 기반 모델이 84%의 정확도를 기록했다. 셋째, 영향력 블로거 식별을 위해 PageRank와 HITS 알고리즘을 결합한 그래프 기반 방법을 적용했으며, 상위 5% 블로거가 전체 포스트의 38%를 생산한다는 불균형 현상을 확인했다. 넷째, K‑means와 DBSCAN을 활용한 군집화 실험에서는 주제별 군집이 정치 이슈(선거, 외교, 경제)와 연관된 토픽을 명확히 구분하였다.
이러한 실험 결과는 데이터셋이 블로그 마이닝 연구에 실용적이며, 다양한 알고리즘의 벤치마크로 활용될 수 있음을 입증한다. 또한, 데이터 수집·정제·라벨링 과정에서 마주친 언어 혼합, 시계열 특성, 비정형 메타데이터 처리 문제는 향후 연구자들에게 중요한 도전 과제로 남는다. 마지막으로, 데이터셋은 GPL‑3.0 라이선스로 공개되어 자유롭게 재사용·확장이 가능하도록 설계되었으며, 커뮤니티 기반의 지속적인 업데이트와 피드백을 장려한다.