데이터 마이닝 기반 네트워크 침입 탐지 분류기 선택 모델
본 논문은 KDD99 데이터셋을 이용해 다수의 머신러닝 분류기를 평가하고, 각 공격 유형별 최적의 분류기를 선정한다. 선정된 분류기들을 조합한 두 가지 선택 모델을 제안하며, 실험 결과 제안 모델이 기존 단일 분류기 대비 탐지 정확도와 실시간 성능에서 유의미한 향상을 보임을 확인한다.
초록
본 논문은 KDD99 데이터셋을 이용해 다수의 머신러닝 분류기를 평가하고, 각 공격 유형별 최적의 분류기를 선정한다. 선정된 분류기들을 조합한 두 가지 선택 모델을 제안하며, 실험 결과 제안 모델이 기존 단일 분류기 대비 탐지 정확도와 실시간 성능에서 유의미한 향상을 보임을 확인한다.
상세 요약
본 연구는 네트워크 침입 탐지 시스템(IDS)의 성능 최적화를 위해 데이터 마이닝 기법을 적용한 분류기 선택 모델을 제시한다. 먼저 KDD99 데이터셋을 전처리하여 41개의 특성(feature)과 5개의 레이블(정상, DoS, Probe, R2L, U2R)로 구성된 실험 환경을 구축하였다. 전통적인 지도학습 알고리즘인 Decision Tree, Random Forest, Support Vector Machine, Naïve Bayes, k-Nearest Neighbor, AdaBoost, Gradient Boosting, 그리고 최근 각광받는 Deep Neural Network까지 총 10여 종의 분류기를 동일한 학습/검증 프로토콜에 따라 평가하였다.
각 분류기의 성능 평가는 정확도(Accuracy), 탐지율(Detection Rate), 오탐률(False Positive Rate), 그리고 F1‑Score를 기준으로 하였으며, 특히 공격 유형별(DoS, Probe, R2L, U2R)로 세분화된 지표를 중점적으로 분석하였다. 결과적으로 Random Forest는 DoS와 Probe 공격에서 높은 탐지율과 낮은 오탐률을 보였으며, Gradient Boosting은 R2L 공격에 대해 가장 높은 F1‑Score를 기록하였다. 반면, U2R와 같이 데이터가 희소한 공격 클래스에서는 Deep Neural Network이 비교적 안정적인 성능을 유지했지만, 학습 시간과 자원 소모가 크게 증가하는 단점이 있었다.
이러한 개별 분류기의 강점을 종합하기 위해 두 가지 선택 모델을 설계하였다. 첫 번째 모델은 공격 유형을 사전 분류한 뒤, 해당 유형에 최적화된 분류기를 동적으로 호출하는 ‘다중‑전문가’ 구조이며, 두 번째 모델은 각 분류기의 예측 결과를 가중 평균하여 최종 결정을 내리는 ‘앙상블‑가중치’ 구조이다. 두 모델 모두 실시간 처리 요구를 충족시키기 위해 경량화된 특징 선택(feature selection) 기법과 샘플링 전략을 적용하였다.
시뮬레이션 결과, 다중‑전문가 모델은 전체 탐지 정확도 96.3%와 오탐률 1.8%를 달성했으며, 앙상블‑가중치 모델은 95.7%의 정확도와 2.1%의 오탐률을 기록하였다. 이는 기존 단일 분류기(예: Random Forest 단독) 대비 각각 2~3%p의 성능 향상을 의미한다. 또한, 평균 응답 시간은 0.018초 수준으로 실시간 탐지 요건을 충분히 만족하였다.
본 연구의 주요 기여는 (1) 공격 유형별 최적 분류기를 체계적으로 선정한 데이터베이스 구축, (2) 두 가지 실용적인 선택 모델을 제안하여 IDS의 정확도와 실시간성을 동시에 개선한 점이다. 한계점으로는 KDD99 데이터셋의 오래된 특성, 실제 네트워크 환경에서 발생하는 새로운 변종 공격에 대한 일반화 검증 부족, 그리고 Deep Learning 기반 모델의 높은 연산 비용이 있다. 향후 연구에서는 최신 CICIDS2017·2020 데이터셋을 활용한 교차 검증과, 경량화된 딥러닝 아키텍처 도입을 통해 실시간 성능을 더욱 향상시키는 방안을 모색할 필요가 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...