감성 분석을 위한 머신러닝 분류기 성능 비교와 부트스트랩 샘플링 기반 SVM의 우수성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 아마존 제품 리뷰 데이터를 이용해 감성 마이닝에 적용할 수 있는 여러 머신러닝 분류기의 성능을 평가한다. 무작위 샘플링, 선형 샘플링, 부트스트랩 샘플링 세 가지 데이터 추출 방법을 적용한 뒤, 오분류율 기준으로 비교했으며, 부트스트랩 샘플링을 사용한 서포트 벡터 머신이 가장 낮은 오분류율을 기록하였다.

상세 분석

이 연구는 텍스트 기반 감성 분석에서 분류기의 일반화 능력을 정량적으로 검증하고자 한다. 데이터는 아마존에서 수집한 제품 리뷰이며, 긍정·부정 두 클래스로 라벨링하였다. 전처리 단계에서는 토큰화, 불용어 제거, 어간 추출을 수행하고, TF‑IDF 가중치를 이용해 벡터화하였다. 실험에 포함된 분류기는 나이브 베이즈, 의사결정 트리, k‑최근접 이웃, 로지스틱 회귀, 서포트 벡터 머신 등 전통적인 지도학습 모델이다. 각 모델의 학습·평가 과정에서 세 가지 샘플링 전략을 적용했는데, 무작위 샘플링은 전체 데이터를 무작위로 분할, 선형 샘플링은 연속된 순서대로 데이터를 나누는 방식, 부트스트랩 샘플링은 복원 추출을 통해 훈련 집합을 구성하고 남은 데이터를 테스트에 활용한다. 평가 지표는 오분류율(1‑Accuracy)이며, 교차 검증을 통해 결과의 안정성을 확보하였다. 실험 결과, 모든 모델에서 부트스트랩 샘플링이 다른 두 방법에 비해 오분류율을 현저히 낮추는 경향을 보였다. 특히 SVM은 부트스트랩 샘플링 하에 6.2%의 오분류율을 기록, 다음으로 높은 성능을 보인 모델보다 약 2%p 낮은 수치를 나타냈다. 이는 부트스트랩이 데이터의 다양성을 유지하면서 과적합을 방지하고, SVM의 고차원 초평면 탐색 능력과 시너지 효과를 발휘한다는 점을 시사한다. 반면, 나이브 베이즈와 의사결정 트리는 샘플링 방식에 크게 영향을 받지 않아 상대적으로 일정한 성능을 유지했으며, 이는 확률 기반 및 규칙 기반 모델이 데이터 분포 변화에 덜 민감함을 의미한다. 연구는 또한 샘플링 크기와 반복 횟수가 결과에 미치는 영향을 간략히 탐색했는데, 부트스트랩 반복 횟수가 30회 이상일 때 성능 향상이 수렴하는 현상을 발견하였다. 이러한 분석은 감성 마이닝 실무에서 모델 선택과 데이터 준비 단계에 실질적인 가이드라인을 제공한다.

감성 분석을 위한 머신러닝 분류기 성능 비교와 부트스트랩 샘플링 기반 SVM의 우수성

초록

상세 분석

댓글 및 학술 토론

의견 남기기