지능형 분류기와 침입 탐지 정확도 향상

초록

본 논문은 WEKA를 활용해 NSL‑KDD 데이터셋에 다양한 지능형 분류기를 적용하고, 단일 및 하이브리드 모델의 탐지 정확도와 효율성을 비교한다. 최종적으로 Java 기반 IDS 모듈에 세 가지 최적 분류기를 통합하여 성능을 검증한다.

상세 요약

본 연구는 먼저 NSL‑KDD 데이터셋을 전처리 단계에서 결측값 제거, 범주형 특성의 원-핫 인코딩, 정규화를 수행하였다. 이후 WEKA 환경에서 전통적인 기계학습 알고리즘인 Decision Tree (J48), Support Vector Machine (SMO), Naïve Bayes, Random Forest, k‑Nearest Neighbor (IBk) 및 인공신경망 (MultilayerPerceptron)을 실험하였다. 각 모델은 10‑fold 교차 검증을 통해 정확도(Accuracy), 탐지율(Detection Rate), 오탐률(False Positive Rate) 및 ROC‑AUC 값을 산출하였다. 초기 실험 결과는 Random Forest와 MultilayerPerceptron이 각각 83.5%와 81.2%의 정확도를 보이며 단일 분류기 중 최고 성능을 나타냈다. 그러나 오탐률이 12% 이상으로 실용적인 IDS 적용에 한계가 있었다.

다음 단계에서는 하이브리드 기법을 도입하였다. 첫 번째는 다수결 투표(Voting) 방식으로 Random Forest, SVM, Naïve Bayes를 결합한 앙상블 모델이며, 두 번째는 Stacking 구조로 기본 학습기(Base Learners)로 위 세 모델을 사용하고 메타 학습기(Meta Learner)로 Logistic Regression을 적용하였다. 투표 앙상블은 정확도를 86.3%까지 끌어올렸으며, 오탐률을 8.7%로 감소시켰다. Stacking 모델은 정확도 87.1%, 오탐률 7.9%를 기록, 특히 희귀 공격 클래스에 대한 재현율이 92%에 달해 기존 단일 모델 대비 현저히 개선되었다.

실제 IDS 적용을 위해 Java 기반 애플리케이션을 개발하였다. WEKA API를 이용해 학습된 모델을 직렬화하고, 실시간 패킷 흐름을 CSV 형태로 입력받아 전처리 후 예측을 수행한다. 세 가지 최적 모델(Random Forest, Voting 앙상블, Stacking) 중 성능과 실행 시간을 종합적으로 고려해 최종 시스템에 통합하였다. 실험 환경은 Intel i7‑9700K, 16 GB RAM, Java 11이며, 평균 응답 시간은 12 ms(단일 Random Forest)에서 18 ms(Voting)까지 차이가 났다. 이는 실시간 IDS 요구사항을 충족할 수 있는 수준이다. 전체적인 분석을 통해 하이브리드 기법이 단일 분류기에 비해 탐지 정확도와 오탐률 모두에서 우수함을 확인했으며, WEKA와 Java 연동을 통한 프로토타입 구현이 실용적인 IDS 개발에 유용함을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)