이중언어 사이버 범죄 커뮤니티에서 419 사기 탐지를 위한 분류기 평가

초록

본 연구는 나이지리아 사이버 범죄 커뮤니티에서 발생하는 419 사기 메시지를 탐지하기 위해 나이브 베이즈, k‑최근접 이웃(IBK), 서포트 벡터 머신(SVM) 세 가지 텍스트 분류기의 성능을 비교한다. 실제 수집된 이중언어(영어·현지 언어) 데이터셋을 전처리하고, TF‑IDF 기반 특징 추출 후 10‑폴드 교차 검증을 수행하였다. 결과는 95 % 신뢰수준에서 SVM이 다른 두 모델보다 유의하게 높은 정확도와 F1 점수를 기록했으며, 특히 다국어 혼합 텍스트에서 강인한 일반화 능력을 보였다.

상세 분석

이 논문은 사이버 범죄 연구에서 상대적으로 간과되어 온 ‘이중언어’ 환경을 조명한다. 나이지리아와 같은 비영어권 국가에서 활동하는 사기 조직은 현지 언어와 영어를 혼용해 피해자를 유인한다는 점에서 기존 영어 전용 텍스트 분류 모델의 적용에 한계가 있다. 저자들은 이러한 현실을 반영해 데이터 수집 단계에서 포럼, 채팅 로그, 이메일 등 다양한 소스에서 2,300여 건의 419 사기 메시지를 추출하고, 언어 감지 후 토큰화·정규화를 수행하였다. 특징 추출에는 단어 빈도‑역문서 빈도(TF‑IDF)를 사용했으며, 차원 축소를 위해 상위 5,000개의 n‑그램을 선택했다.

세 모델의 하이퍼파라미터 튜닝은 각각 그리드 서치를 적용했다. 나이브 베이즈는 멀티노미얼 형태를, IBK는 k=5와 유클리드 거리, SVM은 RBF 커널과 C=1.0, γ=0.01을 최적값으로 채택했다. 평가 지표는 정확도, 정밀도, 재현율, F1‑스코어이며, 10‑폴드 교차 검증을 통해 모델의 일반화 성능을 검증했다.

실험 결과, SVM은 평균 정확도 92.3 %, F1‑스코어 0.91을 기록했으며, 나이브 베이즈(84.7 % 정확도, 0.83 F1)와 IBK(86.1 % 정확도, 0.85 F1)보다 통계적으로 유의미하게 우수했다(p < 0.05, t‑test). 특히 SVM은 다중 언어 혼합 특성에서 높은 마진을 확보함으로써 오버피팅을 방지하고, 희소한 n‑그램에도 강인한 분류 능력을 보였다. 반면 나이브 베이즈는 조건부 독립 가정 위반으로 인해 다중 언어 문맥을 충분히 포착하지 못했고, IBK는 고차원 공간에서 거리 기반 판단이 불안정해 성능이 제한적이었다.

또한, 저자들은 오류 분석을 통해 SVM이 오분류한 사례 대부분이 매우 짧은 메시지(≤5단어) 혹은 특수 기호와 이모티콘이 과다하게 포함된 경우임을 확인했다. 이는 향후 문자 수준의 임베딩이나 딥러닝 기반 모델 도입 시 개선 가능성을 시사한다.

결론적으로, 이중언어 사이버 범죄 텍스트 분류에서는 고차원 특징 공간을 효과적으로 다루는 SVM이 현재 가장 실용적인 선택이며, 향후 연구는 BERT와 같은 사전학습 언어 모델을 활용해 언어 혼합성을 더 정교히 모델링하는 방향으로 진행될 필요가 있다.