사이버 보안 모델의 적대적 견고성 및 설명가능성 변동 분석
초록
본 논문은 피싱 URL 분류와 네트워크 침입 탐지 두 분야의 머신러닝 모델을 대상으로 L∞-제한 FGSM·PGD 공격에 대한 정확도 저하와 SHAP 기반 설명가능성 변동을 정량화한다. 정확도‑공격 강도 곡선 아래 면적을 Robustness Index(RI)로 정의하고, 그래디언트 민감도와 SHAP 드리프트를 통해 취약한 특성을 식별한다. 실험 결과, PGD보다 FGSM이 더 급격히 정확도를 떨어뜨리지만, adversarial training을 적용하면 RI가 최대 9% 상승하고 정상 데이터 정확도는 거의 유지된다. 견고성 저하와 설명가능성 불안정이 동시에 발생한다는 점을 강조한다.
상세 분석
본 연구는 사이버 보안 실무에 흔히 사용되는 구조화된 피처 데이터를 대상으로 적대적 공격의 영향을 정량적으로 평가한 점에서 의미가 크다. 먼저 L∞-노름을 적용한 FGSM과 다단계 PGD 공격을 동일한 ε 범위(0~0.3)에서 수행했으며, 정확도‑ε 곡선 아래 면적을 Robustness Index(RI)로 정의함으로써 모델의 전반적인 견고성을 한 숫자로 비교할 수 있게 했다. RI는 ε=0에서의 정확도를 포함해 전체 구간에 걸친 성능 저하 정도를 반영하므로, 단순히 특정 ε에서의 정확도만 보는 것보다 모델의 내구성을 포괄적으로 파악한다.
피처 수준 분석에서는 두 가지 지표를 도입했다. 첫째, 손실 함수에 대한 입력 피처의 평균 절대 그래디언트(식 5)를 계산해 “gradient‑based feature sensitivity”를 구했으며, 이는 특정 피처가 모델 예측에 얼마나 크게 기여하는지를 나타낸다. 둘째, SHAP 값을 이용해 원본과 적대적 샘플 간의 평균 절대 차이(식 6)를 측정해 “SHAP attribution drift”를 정의했다. 두 지표 모두 높은 값을 보이는 피처는 공격에 의해 모델의 결정 경계와 설명 경로가 동시에 크게 변한다는 것을 의미한다.
실험 결과는 두 데이터셋 모두에서 일관되었다. 피싱 데이터에서는 InsecureForms, NumDash, FrequentDomainNameMismatch와 같은 URL 구조적 특성이 높은 S_i와 Δφ_i를 보였으며, 이는 공격자가 해당 피처를 조작하면 모델이 급격히 오분류될 뿐 아니라 SHAP 기반 설명도 크게 변한다는 것을 시사한다. 네트워크 침입 데이터(UNSW‑NB15)에서는 흐름 통계와 프로토콜 관련 피처가 유사한 패턴을 보였지만, 차원 수가 많아 전반적인 정확도 감소가 더 완만하고 RI 값이 상대적으로 높았다.
또한, adversarial training을 적용한 경우 RI가 FGSM에서 0.61→0.71, PGD에서 0.72→0.87(피싱) 등 크게 향상되었으며, 클린 데이터 정확도는 0.91→0.89 정도로 미미하게 감소했다. 이는 적대적 샘플을 학습에 포함시킴으로써 모델이 고감도 피처에 대한 의존도를 낮추고, 그래디언트와 SHAP 드리프트를 동시에 억제한다는 점을 보여준다.
흥미롭게도 PGD가 이론적으로 더 강력한 공격임에도 불구하고, L∞-제한과 피처 정규화가 결합된 표준화된 수치 데이터에서는 FGSM보다 정확도 저하가 완만했다. 이는 공격 강도가 피처 스케일에 크게 좌우된다는 점을 시사하며, 실제 사이버 보안 시스템에서 적절한 피처 스케일링과 정규화가 방어 차원에서 중요한 역할을 할 수 있음을 암시한다.
전반적으로 본 논문은 (1) 구조화된 사이버 보안 데이터에 대한 적대적 견고성 평가 프레임워크, (2) RI라는 통합 지표, (3) 그래디언트와 SHAP을 결합한 피처‑레벨 취약성 분석, (4) 도메인 간 일관된 견고성·설명가능성 상관관계 발견이라는 네 가지 주요 기여를 제공한다. 이러한 결과는 보안 운영팀이 모델 선택·배포 시 단순 정확도뿐 아니라 설명가능성 유지와 적대적 방어 능력을 동시에 고려하도록 유도한다.
댓글 및 학술 토론
Loading comments...
의견 남기기