클러스터와 예측을 결합한 트위터 감성 분석 향상

클러스터와 예측을 결합한 트위터 감성 분석 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 트위터에서 수집한 제품 관련 트윗을 K‑means 군집화로 전처리한 뒤, 결정트리와 서포트 벡터 머신을 이용해 긍정·부정 감성을 분류하는 하이브리드 모델을 제안한다. 실험 결과, 군집 기반 전처리가 단일 분류기 대비 정확도와 F1 점수를 모두 향상시킴을 확인하였다.

상세 분석

이 연구는 소셜 미디어 텍스트의 고차원, 잡음 많은 특성을 고려해 두 단계 학습 파이프라인을 설계하였다. 먼저, 트윗을 토큰화하고 불용어 제거, 어간 추출 등을 수행한 뒤 TF‑IDF 벡터화로 수치화한다. 이후 K‑means 알고리즘을 적용해 데이터셋을 K개의 군집으로 나누는데, 군집 수 K는 실루엣 점수와 엘보우 방법을 복합적으로 판단해 최적값을 도출한다. 군집화 단계는 동일한 감성 경향을 가진 샘플을 한 그룹에 모아, 각 군집 내 클래스 불균형을 완화하고 특징 공간을 보다 구분 가능하게 만든다.

군집화된 데이터는 각각 독립적인 학습 데이터셋으로 취급되어, 결정트리와 서포트 벡터 머신(SVM) 두 가지 지도 학습 모델에 입력된다. 결정트리는 정보 이득 기반 분할 기준을 사용해 해석 가능한 규칙을 생성하고, SVM은 RBF 커널을 적용해 비선형 경계 학습을 수행한다. 두 모델은 교차 검증을 통해 하이퍼파라미터(트리 깊이, C값, 감마 등)를 최적화한다. 최종 예측은 다수결 앙상블 방식으로 결합하거나, 개별 모델의 확률 점수를 가중 평균해 결정한다.

평가 지표로는 정확도, 정밀도, 재현율, F1‑score를 사용했으며, 베이스라인으로는 군집화 없이 바로 분류기에 투입한 경우와 기존 딥러닝 기반 LSTM 모델을 비교하였다. 실험 결과, 클러스터‑후‑예측(Cluster‑then‑Predict) 구조가 베이스라인 대비 평균 4~6%의 정확도 상승을 보였고, 특히 부정 클래스의 재현율이 크게 개선되었다. 이는 군집 단계가 희귀한 부정 트윗을 보다 효과적으로 학습하도록 돕는 것으로 해석된다.

한계점으로는 K‑means가 구형 군집을 전제로 하여 트윗의 복합적인 의미 구조를 완전히 포착하지 못한다는 점과, 군집 수 선택이 결과에 민감하게 작용한다는 점을 들 수 있다. 또한, TF‑IDF 기반 특징은 어휘 수준의 정보에 국한돼 문맥적 뉘앙스를 놓칠 위험이 있다. 향후 연구에서는 Word2Vec·BERT와 같은 임베딩을 활용해 군집화 전 단계에서 의미론적 유사성을 반영하고, DBSCAN·Spectral Clustering 등 비구형 군집 알고리즘을 도입해 성능을 더욱 끌어올릴 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기