온라인 신뢰도와 성능 데이터를 활용한 악성 웹 도메인 탐지
초록
본 연구는 웹 도메인의 인기·성능 지표를 특징으로 활용해 머신러닝 기반 악성(멀웨어·피싱) 도메인 탐지 모델을 구축한다. 두 개의 라벨링된 데이터셋에 대해 5가지 단일 분류기와 4가지 앙상블 기법을 적용하고, 이진 입자군집 최적화(BPSO) 기반 특징 선택을 도입해 성능을 향상시켰다. 실험 결과, 인기·성능 특성만으로도 높은 정확도를 달성했으며, BPSO‑특징 선택이 대부분의 모델에서 정확도·재현율을 유의하게 개선함을 확인했다.
상세 분석
이 논문은 웹 도메인의 “인기”(예: Alexa 순위, 백링크 수, 소셜 미디어 언급)와 “성능”(예: 응답 시간, 가용성, SSL 인증서 유무)이라는 두 축의 정량적 메트릭을 수집해 악성 도메인 여부를 예측하는 지도학습 문제로 정의한다. 데이터는 2018‑2020년 사이에 공개된 악성 도메인 리스트(멀웨어·피싱)와 동일 기간에 수집한 정상 도메인 풀을 매칭해 2,000여 개 샘플(각 클래스 1,000개)로 구성되었다. 특징은 총 30여 개이며, 일부는 상관관계가 높아 차원 축소 필요성을 제기한다.
단일 분류기로는 서포트 벡터 머신(SVM), 나이브 베이즈(NB), k‑최근접 이웃(KNN), 결정 트리(DT), 랜덤 포레스트(RF)를 사용했으며, 앙상블으로는 배깅, 부스팅(AdaBoost), 스태킹, 그리고 하드/소프트 보팅을 적용했다. 각 모델은 10‑폴드 교차 검증으로 튜닝했으며, 평가 지표는 정확도, 정밀도, 재현율, F1‑스코어, AUC를 포함한다.
특징 선택 단계에서는 이진 입자군집 최적화(BPSO)를 도입해 이진 형태의 입자(특징 포함/제외)를 진화시켰다. 적합도 함수는 검증 세트에서의 AUC와 선택된 특징 수에 대한 페널티를 결합해 과적합을 방지한다. BPSO는 30개의 입자를 50세대 진화시켰으며, 최종 선택된 특징은 평균 12개(전체 30개 대비 40%)에 불과했다.
실험 결과, BPSO 적용 전후의 성능 차이를 보면, SVM은 정확도 92.3% → 94.7%(+2.4%), RF는 94.1% → 95.8%(+1.7%)로 전반적인 향상이 관찰되었다. 특히 정밀도와 재현율이 모두 2~3%p 상승했으며, AUC는 0.96 수준까지 끌어올렸다. 앙상블 모델 중 부스팅 기반 AdaBoost는 원본 특징만으로도 95.2%의 정확도를 기록했지만, BPSO 적용 후 96.1%로 소폭 개선되었다.
또한, 특징 중요도 분석을 통해 “도메인 연령”, “백링크 수”, “HTTPS 적용 여부”, “응답 시간 평균” 등이 악성 여부를 판단하는 핵심 변수임을 확인했다. 이는 기존 연구에서 강조된 URL 문자열 기반 특징과는 달리, 외부 메트릭만으로도 충분히 높은 탐지 성능을 달성할 수 있음을 시사한다.
한계점으로는 데이터 수집 시점의 편향(특정 연도와 지역에 집중)과, 인기·성능 지표가 급변할 경우 실시간 적용에 대한 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 스트리밍 데이터와 온라인 학습 기법을 결합해 모델의 적응성을 높이고, 악성 도메인 생성 패턴의 진화에 대응하는 지속적 특징 업데이트 방안을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기