Rohingya 난민 논쟁 감성 분석 SVM 접근
초록
본 연구는 방글라데시 내 Rohingya 난민에 대한 페이스북 댓글을 수집·라벨링한 5,000개 데이터셋을 이용해 선형 커널 SVM 모델을 구축하고, 기존의 나이브 베이즈 대비 12%p 정도 높은 정확도(79%)를 달성하였다. 전처리, TF‑IDF 1‑2‑gram 특징 추출, 파라미터 C=0.1 설정 등이 주요 성능 향상 요인으로 제시된다.
상세 분석
이 논문은 Rohingya 위기라는 사회·정치적 민감 주제를 대상으로 감성 분석 시스템을 구현한 사례 연구이다. 가장 큰 공헌은 공개된 데이터가 전무한 상황에서 연구진이 직접 2,500개의 긍정·부정 댓글을 라벨링하고, 이를 5,000개 학습·검증용 데이터셋으로 구성한 점이다. 데이터 수집은 페이스북 공개 게시글과 댓글을 크롤링했으며, 라벨링 기준은 ‘난민 수용에 찬성(Approval)’과 ‘반대(Disapproval)’ 두 클래스로 단순화하였다.
전처리 단계는 일반적인 텍스트 정규화와 더불어 소셜 미디어 특유의 요소를 처리한다. 모든 문자를 소문자로 변환하고, URL을 ‘URL’, 사용자명을 ‘__HANDLE’로 치환한다. 해시태그는 ‘#’ 기호를 제거해 원 단어를 유지하고, 반복 문자(예: “happyyy”)는 두 번까지 축소한다. 감정 이모티콘은 사전 정의된 ‘positive’·‘negative’ 토큰으로 대체하며, 이 경우 SVM 분류기를 호출하지 않고 바로 감성 라벨을 부여한다. 형태소 분석 대신 PorterStemmer를 적용해 어간을 추출하였다.
특징 추출은 scikit‑learn의 TfidfVectorizer를 사용했으며, 최소 문서 빈도(min_df)=5, 최대 문서 빈도(max_df)=0.95, 서브라인 TF, IDF 사용, n‑gram 범위=(1,2) 로 설정하였다. 이는 단어 단위와 2‑gram을 동시에 고려해 문맥 정보를 보강한다는 의도이다. 분류 모델는 LinearSVC(C=0.1) 로, 선형 커널을 선택함으로써 대규모 고차원 TF‑IDF 벡터에 대한 학습 속도를 최적화하였다. 교차 검증(20% 검증 셋) 결과, 전체 정확도 79%, 클래스별 정밀도·재현율·F1 점수는 각각 0.78/0.79/0.78(부정)와 0.81/0.81/0.81(긍정)으로 균형 잡힌 성능을 보였다.
비교 실험으로 동일 데이터에 나이브 베이즈(uni‑gram) 모델을 적용했을 때 정확도가 67%에 머물렀으며, 이는 복잡한 정치적 문맥과 어휘 다양성을 uni‑gram만으로 포착하지 못했기 때문이라고 저자들은 해석한다. 또한, 기존 연구에서 RBF 커널 SVM이 영화 리뷰 데이터에서 높은 성능을 보였음에도 불구하고, 본 연구에서는 선형 커널이 충분히 좋은 결과를 제공함을 확인한다.
한계점으로는 데이터 규모가 작고, 라벨이 이분법에 국한돼 중립 혹은 다중 감성 레이블을 다루지 못한다는 점을 들었다. 또한, 단어 위치 정보와 구문 구조를 활용하지 않아 문맥 의존성이 높은 문장에 대한 오분류 가능성이 남아 있다. 향후 연구에서는 더 큰 다국어 코퍼스를 구축하고, BERT와 같은 사전학습 언어 모델을 도입해 문맥 이해도를 높이는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기