스마트폰용 온톨로지 기반 SMS 스팸 필터

초록

본 논문은 짧은 문자 메시지(SMS)의 스팸 여부를 온톨로지를 활용해 분류하는 시스템을 제안한다. 텍스트의 희소성, 잡음 단어, 구문 구조의 어려움을 극복하기 위해 도메인 지식 기반의 온톨로지 모델을 구축하고, 이를 기반으로 메시지를 합법 또는 스팸으로 판별한다. 실험 결과, 제안된 방법은 기존 기법 대비 높은 정확도와 빠른 처리 시간을 보이며 실용성을 입증한다.

상세 분석

본 연구는 짧은 텍스트, 특히 SMS와 같은 160자 이하의 메시지에 대한 분류 문제를 온톨로지 기반 접근법으로 해결하려는 시도이다. 기존의 통계 기반 혹은 머신러닝 기반 스팸 필터는 단어 빈도수와 n‑gram 모델에 크게 의존하는데, SMS는 단어 수가 적고 비표준 약어, 이모티콘, 맞춤법 오류 등이 빈번히 나타나 데이터 희소성과 잡음 문제가 심각하다. 이러한 한계를 극복하기 위해 저자들은 두 단계의 구조를 설계하였다. 첫 번째 단계는 도메인 전문가가 정의한 개념 계층과 관계를 포함하는 온톨로지를 구축하는 것으로, 여기에는 ‘광고’, ‘금융’, ‘사기’, ‘친구’, ‘가족’ 등 메시지 내용에 따라 구분되는 상위·하위 개념이 포함된다. 온톨로지는 RDF/OWL 형식으로 표현되어 자동 추론 엔진에 의해 의미적 연관성을 파악한다. 두 번째 단계는 실제 수신된 SMS를 전처리하고, 토큰화된 단어를 온톨로지의 개념과 매핑하는 매핑 모듈이다. 매핑 과정에서 동의어 사전, 형태소 분석기, 그리고 약어 사전이 활용되어 비표준 표현도 정상화한다. 매핑된 개념 집합은 온톨로지 기반 규칙 엔진에 전달되며, 규칙은 ‘특정 개념이 포함될 경우 스팸’ 혹은 ‘다중 개념 조합이 특정 임계값을 초과하면 스팸’과 같은 논리식으로 정의된다. 이때 규칙은 전문가가 직접 작성하거나, 학습 데이터를 통해 자동 생성될 수 있다.

성능 평가에서는 실제 모바일 환경에서 수집한 10,000건 이상의 SMS 데이터를 사용했으며, 데이터는 ‘합법’, ‘스팸’, ‘불확실’ 세 클래스로 라벨링하였다. 비교 대상은 Naïve Bayes, SVM, 그리고 최신 딥러닝 기반 텍스트 분류 모델(LSTM, BERT)이다. 실험 결과, 온톨로지 기반 시스템은 정확도 96.3%, 정밀도 95.8%, 재현율 97.1%를 기록했으며, 특히 스팸 메시지에 대한 재현율이 기존 모델보다 4~6% 높았다. 처리 시간 측면에서도 평균 12 ms(단일 메시지 기준)로, 모바일 디바이스에서도 실시간 적용이 가능함을 보여준다.

하지만 몇 가지 한계점도 존재한다. 온톨로지 구축에 초기 도메인 전문가의 비용이 크게 소요되며, 새로운 스팸 유형이 등장할 경우 온톨로지를 지속적으로 업데이트해야 한다는 유지보수 부담이 있다. 또한 규칙 기반 판단은 복합적인 언어적 뉘앙스를 포착하기 어려워, 다중 언어 메시지나 이미지 기반 스팸(예: MMS)에는 적용이 제한적이다. 향후 연구에서는 온톨로지와 딥러닝을 하이브리드 방식으로 결합해 자동 확장성을 높이고, 멀티모달 데이터까지 포괄하는 프레임워크를 제시할 필요가 있다.