경량 강화학습 기반 침입 탐지 회피 에이전트

경량 강화학습 기반 침입 탐지 회피 에이전트
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 오프라인에서 강화학습(RL)으로 학습된 경량 에이전트를 이용해, 실시간 최적화 없이도 머신러닝 기반 네트워크 침입 탐지 시스템(NIDS)을 빠르고 효율적으로 회피하는 방법을 제시한다. 네트워크 트래픽 데이터를 사전 수집·정규화하고, 이를 이용해 대리 모델과 RL 에이전트를 훈련시킨 뒤, 메모리 0.52 MB, 지연 5.72 ms 수준의 경량 정책을 실제 디바이스에 배포한다. 실험 결과, 다양한 NIDS와 위협 모델(화이트·그레이·블랙 박스)에서 평균 48.9 %의 성공률을 달성했으며, 특히 볼륨 기반 공격에 대해 18 % 이상의 추가 성공률을 보였다.

상세 분석

이 연구는 기존 적대적 공격이 요구하는 고비용의 그래디언트 기반 최적화 과정을 배제하고, 사전 학습된 정책을 현장에 적용함으로써 “오프라인 학습·온라인 실행” 패러다임을 구현한다. 핵심 아이디어는 NetFlow‑v9 피처를 상태·관측·행동 공간으로 매핑한 POMDP 모델을 정의하고, 대리 NIDS 모델(˜f)으로부터 얻은 보상 신호를 이용해 정책 πθ를 강화학습으로 최적화하는 것이다. 보상 함수는 (1) 대리 모델 회피 성공 시 남은 교란 예산 비율을 ℓ∞ 정규화하여 반환하고, (2) 회피 실패 시 0을 반환하도록 설계돼, 에이전트가 최소 교란으로 최대 회피 효과를 달성하도록 유도한다.

학습 단계에서는 악성 흐름 샘플을 무작위 초기 상태로 설정하고, 각 타임스텝마다


댓글 및 학술 토론

Loading comments...

의견 남기기