LLM 세탁 후 가짜뉴스 탐지: 성능 측정과 감정 변이 분석
초록
본 연구는 LLM이 생성·패러프레이즈한 가짜뉴스가 기존 탐지기에서 어떻게 오인되는지를 측정한다. 인간이 작성한 가짜뉴스에 비해 LLM‑패러프레이즈 텍스트는 탐지 정확도가 현저히 낮으며, 특히 Pegasus 모델이 만든 변형이 가장 탐지하기 어렵다. 감정(센티멘트) 변이가 LIME 기반 설명에서 주요 실패 요인으로 밝혀졌으며, BERTScore가 높아도 감정이 달라지는 경우가 존재함을 지적한다. 또한 인간·LLM·다양한 탐지기·패러프레이즈 모델을 조합한 2개의 확장 데이터셋을 공개한다.
상세 분석
이 논문은 가짜뉴스 탐지 분야에 LLM‑패러프레이즈라는 새로운 공격 벡터를 도입하고, 이를 정량·정성적으로 평가한다. 먼저 COVID‑19와 LIAR 두 공개 데이터셋을 기반으로 인간이 작성한 가짜뉴스와 LLM(GPT, LLaMA, Pegasus)으로 패러프레이즈한 버전을 각각 생성한다. 탐지 모델은 전통적인 머신러닝(로지스틱 회귀, SVM, 랜덤 포레스트, 결정 트리)과 딥러닝(CNN, LSTM) 그리고 사전학습된 트랜스포머(BERT, T5, LLaMA) 17종을 사용했다. 성능 평가는 정확도, F1, 정밀도, 재현율을 매크로 F1 중심으로 보고했으며, 패러프레이즈 품질은 BERTScore(FBERT)로 측정했다.
주요 결과는 다음과 같다. ① 전반적으로 모든 탐지기가 LLM‑패러프레이즈 가짜뉴스를 인간이 만든 가짜뉴스보다 낮은 F1을 보였으며, 특히 Pegasus‑패러프레이즈는 가장 탐지하기 어려웠다. ② BERT, T5, LLaMA와 같은 인코더‑디코더 모델은 인간 가짜뉴스 탐지에 약한 반면, GPT·LLaMA‑패러프레이즈에 대해서는 상대적으로 높은 성능을 유지했다. ③ 전통적인 지도학습 모델(SVM, 로지스틱 회귀, 랜덤 포레스트)은 TF‑IDF·CountVectorizer·WordEmbedding 등 다양한 피처를 사용했을 때 GPT·LLaMA‑패러프레이즈를 잘 구분했지만, 인간·Pegasus‑패러프레이즈는 여전히 오인률이 높았다. ④ LIME을 활용한 로컬 설명에서 감정(긍정/부정) 변이가 주요 특징으로 부각되었다. 패러프레이즈 후 감정 점수가 크게 변하면 탐지기가 원본과 다른 레이블을 예측하는 경향이 강했다. ⑤ 흥미롭게도 BERTScore가 높은 경우에도 감정 변이가 발생하는 샘플이 존재했으며, 이는 의미적 유사도와 감정 일관성이 반드시 일치하지 않음을 시사한다.
이러한 분석을 통해 저자는 “패러프레이즈 단계가 탐지 파이프라인에 도움이 되는가, 방해가 되는가”라는 핵심 질문에 부분적으로 답한다. 현재 실험에서는 대부분의 경우 패러프레이즈가 탐지 성능을 저하시켰으며, 특히 감정 변이가 큰 Pegasus와 같은 모델이 가장 위험한 공격 수단임을 보여준다. 또한, 감정 변이를 정량화하고 이를 탐지기에 피처로 활용하면 방어 성능을 개선할 가능성을 제시한다. 마지막으로, 원본·패러프레이즈·감정·BERTScore를 모두 포함한 2개의 확장 데이터셋을 GitHub에 공개해 향후 연구 재현성과 비교 연구를 촉진한다.
댓글 및 학술 토론
Loading comments...
의견 남기기