KDD Cup 99 데이터 전처리를 통한 네트워크 침입 탐지 머신러닝 분류
초록
본 연구는 KDD Cup 99 데이터셋을 집중적으로 전처리하여 공정한 실험 환경을 구축하고, J48, Random Forest, Random Tree, MLP, Naïve Bayes, Bayes Network 등 여섯 가지 머신러닝 알고리즘을 적용해 침입 탐지 성능을 비교한다. 전처리 단계에서는 중복 레코드 제거, 클래스 불균형 보정, 특성 스케일링 및 원-핫 인코딩을 수행하였다. 실험 결과 Random Forest가 99%에 육박하는 최고 정확도를 기록했으며, 특히 DOS, R2L, U2R, PROBE 네 종류의 공격을 모두 높은 정밀도와 재현율로 탐지한다는 점을 확인하였다.
상세 분석
본 논문은 KDD Cup 99 데이터셋을 활용한 침입 탐지 시스템(IDS) 연구에서 가장 핵심적인 문제인 데이터 전처리 과정을 상세히 기술한다. 원본 KDD 데이터는 4,898,431개의 레코드와 41개의 특성으로 구성되어 있으나, 중복 샘플이 다수 존재하고 클래스 간 불균형이 심각하여 그대로 모델 학습에 투입하면 과적합 및 편향된 성능 평가가 발생한다. 저자들은 먼저 중복 레코드를 1,000,000개 이하로 축소하고, 각 공격 유형(DOS, R2L, U2R, PROBE)과 정상 트래픽 간 비율을 1:1에 가깝게 맞추기 위해 SMOTE와 언더샘플링을 혼합한 오버샘플링/언더샘플링 전략을 적용하였다. 또한, 연속형 특성은 최소-최대 정규화를, 범주형 특성은 원-핫 인코딩을 통해 수치화함으로써 알고리즘 간 비교 가능성을 확보하였다.
모델 선택에서는 전통적인 결정트리 기반 J48, Random Tree와 앙상블 기법인 Random Forest, 그리고 신경망(MLP), 베이즈 계열(Naïve Bayes, Bayes Network)을 포함시켜 다양성을 확보하였다. 각 모델은 10‑fold 교차 검증을 통해 평균 정확도, 정밀도, 재현율, F1‑score를 산출했으며, 특히 Random Forest는 다수의 결정트리를 부스팅 없이 배깅 방식으로 결합해 잡음에 강인하고 변수 중요도 평가가 용이한 장점을 살렸다. 실험 결과 Random Forest는 전체 정확도 99.2%와 함께 각 공격 유형별 재현율이 98% 이상으로 가장 우수했으며, MLP는 학습 시간과 메모리 소모가 크게 증가함에도 불구하고 정확도는 96% 수준에 머물렀다. Naïve Bayes와 Bayes Network은 확률적 가정이 현실 데이터와 부합하지 않아 낮은 성능을 보였다.
이와 같은 분석을 통해 저자들은 KDD 데이터셋의 전처리 품질이 모델 성능에 미치는 영향을 강조하고, Random Forest가 다중 클래스 침입 탐지에 가장 적합한 알고리즘임을 실증하였다. 또한, 특성 중요도 분석을 통해 ‘service’, ‘src_bytes’, ‘dst_bytes’, ‘flag’ 등이 핵심 변수임을 확인함으로써 향후 IDS 설계 시 중요한 피처 선택 지표를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기