웨스트자바 주지사 선거 트위터 감성 분석 텍스트 마이닝 아키텍처
초록
본 연구는 웨스트자바 주지사 선거에 대한 트위터 데이터를 수집·전처리하고, Naive Bayes 분류기를 활용해 긍정·부정 의견을 자동 분류하는 텍스트 마이닝 시스템의 전체 아키텍처를 제시한다. 주요 전처리 단계는 정제, 소문자 변환, 형태소 분석(POS Tagging), 어간 추출이며, 이를 통해 반구조화된 데이터를 반구조화된 형태로 변환한다. 최종적으로 제안된 아키텍처는 다양한 주제의 텍스트 마이닝 연구에 적용 가능하도록 설계되었다.
상세 분석
이 논문은 정치 선거와 같은 사회적 이슈에 대한 실시간 여론 파악을 위해 트위터와 같은 소셜 미디어 데이터를 활용하는 텍스트 마이닝 파이프라인을 설계하고, 그 구현 과정을 상세히 기술한다. 먼저 연구자는 선거와 관련된 키워드(예: “웨스트자바”, “주지사”, “선거”)를 기반으로 트위터 API를 이용해 데이터를 수집한다. 수집된 원시 트윗은 비정형 텍스트이며, 중복, URL, 멘션, 해시태그, 이모티콘 등 노이즈가 많이 포함되어 있다. 따라서 전처리 단계가 핵심 역할을 수행한다.
전처리 단계는 네 가지 하위 작업으로 구성된다. 첫째, **데이터 정제(Cleansing)**에서는 HTML 태그, 특수 문자, 불필요한 공백 등을 제거하고, 트윗 길이를 제한한다. 둘째, **대소문자 통합(Case Folding)**을 통해 모든 텍스트를 소문자로 변환함으로써 단어 형태의 중복을 방지한다. 셋째, **품사 태깅(POS Tagging)**은 인도네시아어 형태소 분석기를 활용해 각 토큰에 품사를 부여한다. 이는 감성 사전 구축이나 어휘 선택에 중요한 정보를 제공한다. 넷째, 어간 추출(Stemming) 단계에서는 어미 변형을 제거해 어근 형태로 통일한다. 이 네 단계가 완료되면 텍스트는 반구조화된 형태(예: 토큰‑품사‑어근 쌍)로 변환되어 머신러닝 모델에 바로 투입될 수 있다.
분류 모델로는 **Naive Bayes(Classifier)**를 선택했으며, 이는 텍스트 데이터에서 고차원 희소성을 효율적으로 처리하고, 학습과 추론 속도가 빠른 장점이 있다. 학습 데이터는 전처리된 트윗을 라벨링(긍정/부정)한 후, 단어 빈도 기반의 베이즈 확률을 계산한다. 모델은 교차 검증을 통해 정확도, 정밀도, 재현율, F1-score 등을 평가한다. 논문에서는 구체적인 성능 수치를 제시하지 않았지만, Naive Bayes가 감성 분석에 널리 사용되는 이유와 그 한계(예: 독립 가정 위배)를 언급한다.
아키텍처 관점에서 저자는 전체 시스템을 데이터 수집 → 전처리 → 특징 추출 → 분류 → 결과 시각화의 5계층 구조로 설계하였다. 각 계층은 모듈화되어 독립적으로 교체·확장이 가능하도록 설계되었으며, 특히 전처리 모듈은 다른 언어·도메인에도 재사용할 수 있도록 일반화된 인터페이스를 제공한다. 또한, 결과 시각화 단계에서는 감성 비율을 시간 흐름에 따라 그래프로 표현하거나, 지리적 위치와 연계해 지역별 여론 지도를 생성한다.
이 연구의 주요 기여는 (1) 트위터 기반 정치 감성 분석을 위한 전처리 프로세스를 체계화하고, (2) Naive Bayes 기반 분류기를 적용한 실용적인 감성 분류 파이프라인을 제시했으며, (3) 제안된 아키텍처가 다른 주제·언어에도 확장 가능함을 입증했다는 점이다. 그러나 데이터 라벨링 방법의 상세 설명 부족, 감성 사전 구축 과정의 부재, 모델 성능 비교가 제한적이라는 한계도 존재한다. 향후 연구에서는 딥러닝 기반 모델(LSTM, BERT)과의 성능 비교, 다중 감성(긍정·부정·중립) 분류, 실시간 스트리밍 처리 등을 통해 시스템을 고도화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기