스팸 발송자 행동 모델링을 위한 머신러닝 접근법

초록

본 논문은 스팸 메일을 차단하기 위해 스팸 발송자의 행동 패턴을 모델링하고자, 나이브 베이즈, 의사결정트리, 서포트 벡터 머신 등 세 가지 대표적인 분류 알고리즘을 적용하였다. 실험 결과 92% 수준의 높은 탐지율을 기록했으며, 기존 키워드 기반 필터링보다 향상된 성능을 보였다.

상세 요약

본 연구는 스팸 메일이 단순히 특정 키워드의 존재 여부에 의해 판단될 수 없으며, 스팸 발송자는 필터 회피를 위해 지속적으로 전송 패턴을 변형한다는 점에 주목한다. 이를 해결하기 위해 저자는 스팸 메일의 메타데이터(발송 시간, 발송자 도메인, 헤더 구조)와 내용 기반 특징(단어 빈도, n‑gram, HTML 태그 사용 여부) 등을 추출하여 특성 벡터를 구성하였다. 특성 선택 단계에서는 정보 이득과 카이제곱 검정을 활용해 불필요한 차원을 제거하고, 남은 30여 개의 핵심 특징을 모델 학습에 사용하였다.

세 가지 분류기 중 나이브 베이즈는 조건부 독립 가정을 통해 빠른 학습과 추론이 가능하지만, 실제 스팸 데이터는 특징 간 상관관계가 높아 가정 위배가 성능 저하 요인으로 작용한다. 의사결정트리(특히 C4.5 기반)는 특징의 비선형 관계를 효과적으로 포착하고, 트리 구조 자체가 해석 가능하다는 장점이 있다. 그러나 과적합 위험이 존재해 사후 가지치기(pruning)를 적용하였다. 서포트 벡터 머신은 고차원 특징 공간에서 마진을 최대화함으로써 높은 일반화 능력을 보였으며, 커널 함수(RBF)를 사용해 비선형 경계도 학습하였다.

실험은 공개된 SpamAssassin 데이터셋과 자체 수집한 기업 메일 로그를 혼합한 10,000건의 메일(스팸 5,200건, 정상 4,800건)으로 수행되었다. 10‑fold 교차 검증 결과, 나이브 베이즈는 정확도 85%, 재현율 81%를 기록했으며, 의사결정트리는 정확도 90%, 재현율 88%를 달성했다. 서포트 벡터 머신은 정확도 92%, 재현율 90%로 가장 우수한 성능을 보였으며, 특히 거짓 양성률을 3% 이하로 낮추는 데 성공하였다.

한계점으로는 데이터 레이블링의 주관성, 최신 스팸 기법(예: 이미지 기반 스팸) 반영 부족, 그리고 실시간 적용 시 연산 비용이 SVM에서 상대적으로 높다는 점을 들 수 있다. 향후 연구에서는 딥러닝 기반 텍스트 임베딩과 강화 학습을 결합해 동적 적응형 필터를 구현하고, 멀티모달(텍스트·이미지·링크) 스팸 탐지를 위한 통합 모델을 개발할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)