시간 의존형 수처리 시스템 사이버 공격 탐지를 위한 하이브리드 앙상블 모델
초록
본 논문은 BATADAL 데이터셋을 활용해 물 공급 시스템(수처리)에서 발생하는 사이버 공격을 탐지하기 위해, 랜덤 포레스트(RF), XGBoost(XGB), 장기 단기 메모리(LSTM) 세 가지 기본 모델을 결합한 하이브리드 스택드 앙상블 프레임워크를 제안한다. 클래스 불균형 문제를 SMOTE로 완화하고, RF 기반 특성 중요도와 SHAP 해석을 통해 핵심 센서 변수를 도출하였다. 실험 결과, 단일 LSTM은 성능이 저조했으나 XGB가 높은 F1(0.747)과 AUC(0.968)를 기록했고, 세 모델을 로지스틱 회귀 메타러너와 스택한 최종 앙상블은 F1 = 0.7205, AUC = 0.9826으로 가장 우수한 검출 능력을 보였다.
상세 분석
본 연구는 산업 제어 시스템(ICS) 특히 물 배급 시스템(WDS)의 사이버 보안 문제를 데이터 중심으로 접근한다. BATADAL 데이터는 시간 간격이 1시간인 12 938개의 샘플과 45개의 변수(시간 인덱스, 43개의 센서값, 공격 플래그)로 구성돼 있으며, 공격 샘플이 전체의 3.77%에 불과한 극심한 클래스 불균형을 보인다. 저자는 먼저 결측치가 없음을 확인하고, 모든 센서값을 수치형으로 변환한 뒤, Pearson 상관행렬을 통해 다중공선성을 파악하고, RF 기반 특성 중요도 분석으로 공격 탐지에 가장 기여하는 상위 10개 센서를 선정하였다(FPU6, SPU6, LT1 등).
불균형 문제 해결을 위해 SMOTE를 적용해 소수 클래스 샘플을 합성했으며, 이는 모델이 정상 클래스에만 편향되는 것을 방지한다. 기본 모델로는 (1) 랜덤 포레스트(RF) – 배깅 기반의 트리 앙상블으로 비선형 상호작용을 포착, (2) XGBoost(XGB) – 그래디언트 부스팅 방식으로 정규화와 정밀한 트리 학습을 제공, (3) LSTM – 시계열 데이터를 순차적으로 학습하도록 설계된 RNN 변형을 사용했다. 각 모델은 동일한 전처리된 피처를 입력받아 5‑fold 교차 검증을 수행했으며, 성능 평가지표는 F1‑score와 ROC‑AUC를 채택했다.
실험 결과, LSTM 단일 모델은 F1 = 0.000, AUC = 0.446으로 거의 무능함을 보였는데, 이는 공격 샘플이 극히 적고 시계열 길이가 짧아 충분한 패턴 학습이 어려웠기 때문으로 해석된다. 반면 XGB는 F1 = 0.747, AUC = 0.9684로 가장 우수했으며, RF도 비교적 높은 성능을 기록했다.
하이브리드 스택드 앙상블은 3개의 기본 모델 예측값을 메타 레이어인 로지스틱 회귀에 입력해 학습한다. 이 구조는 서로 다른 모델의 오류 분포와 강점을 보완해 전반적인 일반화 능력을 향상시킨다. 최종 앙상블은 공격 클래스에 대해 F1 = 0.7205, AUC = 0.9826을 달성했으며, 특히 높은 AUC는 정상·공격 구분이 명확함을 의미한다.
해석 측면에서는 SHAP 값을 활용해 각 피처가 예측에 미치는 기여도를 시각화했으며, 주요 센서(예: 펌프 흐름, 압력, 탱크 수위)의 변동이 공격 탐지에 핵심적인 역할을 함을 확인했다. 이는 현장 운영자가 모델 결과를 신뢰하고, 이상 징후 발생 시 빠르게 대응할 수 있는 근거를 제공한다.
전체적으로 본 연구는 (1) 데이터 불균형을 SMOTE로 보정, (2) 트리 기반 모델과 시계열 모델을 결합한 이종 스택드 앙상블을 설계, (3) SHAP 기반 설명 가능성을 부여함으로써, 실시간 물 공급 시스템의 사이버 공격 탐지에 실용적이고 확장 가능한 솔루션을 제시한다는 점에서 의의가 크다. 다만 LSTM의 성능 저조와 SMOTE에 의한 과적합 가능성, 그리고 실제 현장 적용 시 실시간 처리 비용 등에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기