온라인 신뢰도와 성능 데이터를 활용한 악성 웹 도메인 식별을 위한 통합 리샘플링 기법

온라인 신뢰도와 성능 데이터를 활용한 악성 웹 도메인 식별을 위한 통합 리샘플링 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 온라인 신뢰도·성능 지표를 이용해 악성 웹 도메인을 판별하고, 정상 도메인에 비해 악성 도메인이 적은 클래스 불균형 문제를 해결하기 위해 SMOTE와 입자군집 최적화(PSO)를 결합한 통합 리샘플링 방식을 제안한다. 8가지 머신러닝 분류기를 적용해 다양한 불균형 비율의 실험 데이터를 평가한 결과, 제안 기법이 기존 5가지 리샘플링 방법보다 전반적인 정확도·재현율·F1‑스코어에서 우수함을 확인하였다.

상세 분석

이 논문은 악성 웹 도메인 식별에 있어 두 가지 핵심 과제를 동시에 다룬다. 첫 번째는 도메인 신뢰도와 성능을 정량화한 특성을 활용해 머신러닝 모델을 구축한다는 점이다. 저자는 WHOIS 정보, Alexa 순위, 페이지 로딩 시간, SSL 인증서 유무 등 다양한 온라인 메트릭을 수집하고, 이를 전처리·정규화하여 30여 개의 특징 벡터를 만든다. 두 번째는 정상 도메인에 비해 악성 도메인이 현저히 적은 데이터셋에서 발생하는 클래스 불균형을 효과적으로 완화하는 것이다. 기존 연구에서는 오버샘플링(SMOTE)이나 언더샘플링(Random Under‑Sampling)만을 단독으로 적용했지만, 이 논문은 SMOTE로 소수 클래스(악성)를 합성 생성한 뒤, 입자군집 최적화(PSO)를 이용해 다수 클래스(정상) 샘플을 선택적으로 제거한다. PSO는 입자군집이 탐색 공간을 효율적으로 탐색하도록 설계돼, 최적의 언더샘플링 비율과 샘플 조합을 찾는다. 이렇게 하면 데이터의 원래 분포를 크게 왜곡하지 않으면서도 클래스 비율을 균형 있게 맞출 수 있다.

제안된 통합 리샘플링 절차는 다음과 같이 구성된다. (1) 원본 데이터에 SMOTE를 적용해 소수 클래스 샘플을 N배 증가시킨다. (2) 전체 데이터셋을 PSO 입자군집에 입력해, 각 입자는 특정 비율의 다수 클래스 샘플을 선택하는 이진 벡터를 나타낸다. (3) 목표 함수는 F1‑스코어와 같은 불균형 민감 지표를 최대화하도록 설계돼, PSO는 반복적으로 입자 위치를 업데이트하며 최적의 언더샘플링 조합을 탐색한다. 최종적으로 SMOTE‑augmented 소수 클래스와 PSO‑selected 다수 클래스가 결합된 균형 데이터셋이 생성된다.

실험에서는 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, 그래디언트 부스팅, XGBoost, K‑최근접 이웃, 나이브 베이즈, 다층 퍼셉트론 등 8가지 분류기를 적용했으며, 불균형 비율을 1:5, 1:10, 1:20 등으로 조정한 3개의 데이터셋을 사용했다. 비교 대상은 기존 SMOTE, ADASYN, Random Under‑Sampling, Tomek Links, SMOTE‑ENN 등 5가지 대표 리샘플링 기법이다. 결과는 제안 기법이 평균 정확도 35%p, 재현율 69%p, F1‑스코어 4~7%p 향상을 보였으며, 특히 재현율이 크게 개선돼 악성 도메인 탐지에 실질적인 이점을 제공한다는 점을 강조한다.

이 연구의 주요 기여는 (1) 온라인 신뢰도·성능 데이터를 활용한 악성 도메인 식별 모델을 최초로 제시한 점, (2) SMOTE와 PSO를 결합한 새로운 통합 리샘플링 프레임워크를 고안해 클래스 불균형을 효과적으로 완화한 점, (3) 다양한 머신러닝 알고리즘과 다중 불균형 비율에 걸친 포괄적인 실험을 통해 제안 방법의 일반성을 검증한 점이다. 다만 PSO 파라미터 튜닝에 따라 성능 변동이 있을 수 있으며, 대규모 실시간 트래픽에 적용하기 위한 연산 효율성 검증이 추가로 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기