가짜 뉴스 탐지를 위한 SVM과 텍스트 벡터화 기법 비교
초록
본 연구는 ISO T 가공 가짜·진짜 뉴스 데이터셋을 활용해 SVM과 BERT 기반 모델의 가짜 뉴스 탐지 성능을 비교한다. SVM에는 TF‑IDF, Word2Vec, Bag‑of‑Words 세 가지 텍스트 벡터화 방법을 적용하고, 선형 및 RBF 커널을 실험한다. 결과는 BoW‑선형 SVM이 99.81 % 정확도와 0.9980 F1‑score를 기록해 BERT‑base(99.98 % 정확도, 0.9998 F1)와 근소한 차이임을 보여준다. 고성능을 유지하면서도 계산 비용이 낮은 BoW‑SVM이 실용적 대안임을 제시한다.
상세 분석
본 논문은 가짜 뉴스 탐지라는 사회적·기술적 문제에 대해 전통적인 머신러닝 모델인 서포트 벡터 머신(SVM)과 최신 트랜스포머 기반 언어 모델인 BERT‑base를 직접 비교함으로써 두 접근법의 장단점을 명확히 드러낸다. 데이터는 ISO T 연구팀이 구축한 “Fake and Real News Dataset”을 사용했으며, 총 44 898개의 기사(실제 21 477개, 가짜 23 421개)를 훈련·테스트 셋으로 80:20 비율로 분할하였다. 전처리 단계에서는 NLTK stopword 제거, 3자 이하 토큰 삭제, gensim의 simple_preprocess를 이용한 토크나이징을 수행했으며, BERT 입력을 위해 bert‑tokenizer를 별도 적용하였다.
텍스트 벡터화는 세 가지 방법으로 구현되었다. 첫 번째 TF‑IDF는 단어 빈도와 역문서 빈도를 결합해 희소하지만 의미 중심의 특성을 제공한다. 두 번째 Word2Vec은 CBOW 구조로 300차원 밀집 벡터를 학습해 의미적 유사성을 포착한다. 세 번째 Bag‑of‑Words(BoW)는 단순히 단어 출현 횟수를 카운트해 고차원 희소 행렬을 만든다. 각 벡터화 결과는 SVM의 선형 커널과 RBF 커널에 각각 입력되었다.
SVM 선형 커널은 고차원 희소 특성(특히 BoW, TF‑IDF)에서 효과적으로 마진을 최적화했으며, BoW‑선형 조합이 99.81 % 정확도와 0.9980 F1‑score로 최고 성능을 기록했다. TF‑IDF‑선형도 99.52 % 정확도와 0.9949 F1을 보이며 충분히 경쟁력 있었다. 반면 Word2Vec‑선형은 96.54 % 정확도로 다른 두 방법에 비해 뒤처졌다. RBF 커널을 적용하면 비선형 관계를 어느 정도 포착해 BoW‑RBF가 99.62 % 정확도, 0.9961 F1을 달성했으며, TF‑IDF‑RBF도 99.31 % 정확도로 소폭 향상되었다. 그러나 Word2Vec‑RBF 역시 97.75 % 정확도로 제한적이었다.
BERT‑base 모델은 사전학습된 uncased 버전을 3 epoch만 fine‑tuning했음에도 99.98 % 정확도와 0.9998 F1을 달성, 거의 완벽에 가까운 분류 성능을 보였다. 이는 대규모 사전학습 파라미터가 텍스트 의미와 문맥을 깊이 이해함을 의미한다. 그러나 BERT는 GPU 메모리 요구량이 크고 추론 지연이 SVM에 비해 수십 배 높아 실시간 서비스나 자원 제한 환경에서는 비현실적일 수 있다.
논문은 실험 결과를 통해 “단순하고 효율적인 BoW‑SVM이 고성능을 유지하면서도 계산 비용이 낮다”는 실용적 결론을 도출한다. 또한, RBF 커널이 일부 경우에 선형보다 미세하게 우수함을 보여, 데이터 특성에 따라 비선형 커널 선택이 유의미할 수 있음을 시사한다. 한계점으로는 데이터셋이 영어 뉴스에 국한돼 다국어 혹은 도메인 전이 성능을 검증하지 않았으며, BERT‑large나 최신 경량화 모델(예: DistilBERT, TinyBERT)과의 비교가 부족하다. 향후 연구에서는 하이브리드 벡터화(BoW+Word2Vec)와 앙상블 학습, 그리고 경량 트랜스포머 모델을 결합해 정확도와 효율성 사이의 최적 균형을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기