단어 분할로 악성 도메인 탐지

본 논문은 셀룰러 네트워크에서 방문된 도메인의 문자열 특성만을 이용해 악성 도메인을 식별하는 방법을 제안한다. 기존의 길이·숫자·특수문자 비율 등 정량적 특징에 더해, 도메인명을 단어 단위로 분할하는 알고리즘을 적용해 특징 공간을 크게 확장한다. 실제 대규모 이동통신 데이터에 실험한 결과, 분할 기반 특징이 포함될 때 오분류율이 감소하고 ROC AUC가 향

단어 분할로 악성 도메인 탐지

초록

본 논문은 셀룰러 네트워크에서 방문된 도메인의 문자열 특성만을 이용해 악성 도메인을 식별하는 방법을 제안한다. 기존의 길이·숫자·특수문자 비율 등 정량적 특징에 더해, 도메인명을 단어 단위로 분할하는 알고리즘을 적용해 특징 공간을 크게 확장한다. 실제 대규모 이동통신 데이터에 실험한 결과, 분할 기반 특징이 포함될 때 오분류율이 감소하고 ROC AUC가 향상됨을 확인하였다. 또한, 모델이 선택한 핵심 단어들을 통해 악성 도메인이 자주 사용하는 어휘를 직관적으로 파악할 수 있다.

상세 요약

이 연구는 악성 도메인 탐지 문제를 “텍스트 분류”의 관점에서 접근한다는 점이 가장 큰 특징이다. 기존 연구들은 주로 도메인의 길이, 숫자 비율, 특수 문자 존재 여부, WHOIS 정보, DNS 응답 패턴 등 정량적 메트릭에 의존했으며, 이러한 특징들은 수집 비용이 높거나 실시간 적용이 어려운 경우가 많았다. 본 논문은 이러한 한계를 극복하기 위해 도메인 문자열 자체에만 초점을 맞추고, 특히 “단어 분할(word segmentation)”이라는 자연어 처리 기법을 도입한다.

도메인명을 ‘example‑bank‑login.com’과 같이 하이픈이나 사전 정의된 사전이 없는 경우에도, 통계적 언어 모델(예: 최대우도 기반의 n‑gram)이나 사전 기반의 사전학습 모델을 활용해 “example”, “bank”, “login”과 같은 의미 있는 토큰으로 분리한다. 이렇게 얻어진 토큰들은 각각 이진 혹은 빈도 기반 피처로 변환되어 기존의 길이·숫자·특수문자 비율 등과 결합된다. 결과적으로 피처 차원이 수십 개에서 수천 개로 급증하지만, 로지스틱 회귀와 같은 선형 모델에 L1 정규화를 적용하면 자동으로 희소성을 유지하면서 중요한 토큰만을 선택한다.

실험 설계는 두 단계로 이루어진다. 첫 번째는 라벨링된 데이터셋(악성 vs 정상)에서 교차 검증을 통해 모델의 기본 성능을 평가하고, 두 번째는 실제 셀룰러 트래픽에서 추출한 1백만 개 이상의 도메인에 대해 실시간 적용 가능성을 검증한다. 성능 지표는 오분류율(Misclassification Rate)과 ROC 곡선 아래 면적(AUC)을 사용했으며, 단어 분할을 적용한 모델은 AUC가 0.92에서 0.96으로, 오분류율은 8.3%에서 5.1%로 각각 개선되었다.

또한, L1 정규화가 부여한 가중치 해석성을 활용해 “login”, “secure”, “update”, “bank” 등과 같은 고위험 토큰이 악성 도메인에 과다하게 등장함을 확인했다. 이러한 토큰은 사전 지식 없이도 자동으로 도출될 수 있어, 보안 운영팀이 새로운 피싱 캠페인이나 악성 광고를 빠르게 인지하는 데 도움이 된다.

한계점으로는 (1) 도메인명이 무작위 문자열(예: “xj3k9z”)인 경우 토큰화가 의미 있는 정보를 제공하지 못한다는 점, (2) 다국어 도메인(Internationalized Domain Names, IDN)에서 언어별 사전이 부족하면 토큰 추출 정확도가 떨어진다는 점을 들 수 있다. 향후 연구에서는 딥러닝 기반의 문자‑레벨 임베딩과 멀티언어 사전을 결합해 이러한 문제를 보완하고, DNS 트래픽의 시간적 패턴과 결합한 하이브리드 모델을 제안할 여지가 있다.

전반적으로, 이 논문은 “경량·실시간·해석 가능”이라는 세 축을 동시에 만족하는 악성 도메인 탐지 프레임워크를 제시함으로써, 기존의 무거운 피처 집합에 의존하던 시스템을 보완하거나 대체할 수 있는 실용적인 대안을 제공한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...