네트워크 트래픽 이상 탐지를 위한 해석 가능한 앙상블 학습과 SHAP 기반 XAI 프레임워크
본 논문은 임베디드 시스템 환경에서 네트워크 트래픽 이상을 탐지하기 위해 랜덤 포레스트, 그래디언트 부스팅, SVM 등 다양한 모델을 비교하고, SHAP 기법을 활용해 모델의 의사결정을 해석한다. 실험 결과 랜덤 포레스트가 90% 정확도와 0.618의 검증 AUC를 기록했으며, packet_count_5s, inter_arrival_time, spectral_entropy가 가장 중요한 특징으로 밝혀졌다.
저자: Wanru Shao
본 논문은 임베디드 시스템 및 산업용 IoT 환경에서 발생하는 네트워크 보안 위협을 효과적으로 탐지하기 위해, 앙상블 학습과 설명 가능 인공지능(XAI) 기법을 융합한 종합적인 프레임워크를 제안한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 기존 연구 동향을 정리하고, 특히 앙상블 학습이 복잡한 산업 데이터에서 높은 예측력을 보이는 점과 SHAP 기반 해석이 모델 투명성을 강화한다는 점을 강조한다. 두 번째는 데이터와 특징 설계이다. 저자는 실제 임베디드 시스템에서 수집한 네트워크 트래픽 데이터를 활용했으며, 총 19개의 특성을 추출했다. 이 중에는 패킷 수, 평균 패킷 크기, 인터‑arrival time 등 전통적인 시간 도메인 변수와, 웨이블릿 변환을 통해 얻은 스펙트럴 엔트로피, 주파수 밴드 에너지와 같은 주파수 도메인 변수가 포함된다. 이러한 다차원 특징은 정상 트래픽과 악성 트래픽 사이의 미묘한 차이를 포착하는 데 기여한다.
세 번째는 모델 설계와 실험 방법론이다. 저자는 Decision Tree, Random Forest, Logistic Regression, AdaBoost, Gradient Boosting, Support Vector Machine, Naive Bayes, K‑Nearest Neighbors 등 총 7가지 알고리즘을 선정하고, 각 모델을 동일한 전처리 파이프라인과 5‑fold stratified cross‑validation 환경에서 학습시켰다. 성능 평가는 정확도, ROC‑AUC, 그리고 95% 신뢰구간을 포함한 통계적 검증을 통해 이루어졌다. 실험 결과, Random Forest가 검증 데이터에서 90% 정확도와 0.618(0.540‑0.695)의 AUC를 기록하며 가장 우수한 일반화 성능을 보였다. Gradient Boosting은 학습 단계에서 거의 완벽한 AUC(≈0.996)를 달성했지만 검증 단계에서 0.537 수준으로 급격히 감소해 과적합 위험을 드러냈다. SVM과 Naive Bayes는 전반적으로 낮은 AUC와 중간 수준의 정확도를 보였으며, K‑NN은 가장 낮은 검증 AUC(0.378)를 기록해 고차원 데이터에 대한 민감도를 확인했다.
네 번째는 SHAP 기반 해석 분석이다. 전역 SHAP 값은 packet_count_5s, inter_arrival_time, spectral_entropy가 가장 큰 기여도를 보였으며, 각각 평균 절대 SHAP 값이 0.025, 0.018, 0.015로 측정되었다. SHAP dependence plot을 통해 packet_count_5s가 0.4를 초과하면 양의 기여가 급격히 증가하고, inter_arrival_time이 0.3 이하일 때 음의 기여가 감소하는 임계값이 시각적으로 확인되었다. spectral_entropy는 U‑shape 패턴을 보여, 매우 낮은 엔트로피(반복적인 공격)와 높은 엔트로피(암호화된 트래픽) 모두가 이상으로 인식될 가능성을 제시한다. 또한, 주파수 밴드 에너지와 packet_size 등 다른 특성들은 특정 상황에서 상호작용 효과를 나타내며, 색상 그라디언트를 통해 이러한 복합 영향을 파악할 수 있었다. 로컬 수준에서는 waterfall plot을 이용해 개별 예측이 어떻게 기본값에서 SHAP 기여를 누적해 최종 라벨에 도달하는지를 상세히 설명하였다.
임베디드 시스템의 제한된 연산 자원을 고려해 모델 복잡도와 추론 시간을 추가로 측정했으며, Random Forest는 트리 수와 깊이를 조절함으로써 메모리 사용량을 제어하면서도 높은 정확도를 유지할 수 있음을 확인했다. 이는 실시간 이상 탐지가 요구되는 현장에 적합한 솔루션임을 의미한다.
결론적으로, 본 연구는 앙상블 학습이 제공하는 높은 탐지 성능과 SHAP 기반 XAI가 제공하는 투명한 의사결정 과정을 결합함으로써, 임베디드 시스템 보안 분야에서 신뢰성 있는 자동화된 이상 탐지 시스템을 구현할 수 있음을 입증한다. 향후 연구에서는 더 다양한 공격 시나리오와 스트리밍 데이터에 대한 온라인 학습, 그리고 경량화된 SHAP 변형을 적용해 실시간 성능을 더욱 향상시키는 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기