호스트 기반 침입 탐지를 위한 GAN 기반 이상 데이터 생성
초록
본 연구는 ADFA‑LD 시스템 콜 데이터를 이미지로 변환한 뒤 Cycle‑GAN을 이용해 정상 샘플로부터 합성 이상 샘플을 생성한다. 생성된 데이터를 원본과 결합해 학습시킨 결과, AUC가 0.55에서 0.71로, 탐지율이 17.07%에서 80.49%로 크게 향상되었으며, 전통적인 오버샘플링 기법인 SMOTE와 비교해 우수한 성능을 보였다.
상세 분석
본 논문은 호스트 기반 침입 탐지(HIDS) 분야에서 데이터 불균형 문제를 해결하기 위한 새로운 접근법을 제시한다. 기존 HIDS 연구는 주로 시계열 형태의 시스템 콜 로그를 직접 피처 엔지니어링하거나, 전통적인 머신러닝 모델에 적용해 왔으며, 데이터가 정상에 비해 이상이 현저히 적은 특성 때문에 학습이 편향되기 쉽다. 이를 극복하기 위해 저자는 두 가지 핵심 아이디어를 결합한다. 첫째, 시스템 콜 시퀀스를 2차원 이미지로 변환함으로써 시각적 패턴을 추출하고, 이미지 기반 딥러닝 모델이 활용할 수 있는 형태로 만든다. 이 과정에서 시퀀스 길이와 콜 종류를 고정된 그리드에 매핑하고, 정규화된 픽셀 값으로 표현한다. 둘째, Cycle‑GAN이라는 비지도 이미지‑이미지 변환 모델을 사용해 정상 이미지에서 이상 이미지로의 도메인 매핑을 학습한다. Cycle‑GAN은 두 개의 생성자와 두 개의 판별자로 구성되며, 정방향(정상→이상)과 역방향(이상→정상) 변환을 동시에 학습함으로써 ‘사이클 일관성 손실’을 최소화한다. 이는 라벨이 없는 이상 샘플이 부족한 상황에서도 의미 있는 변환을 가능하게 한다.
학습 과정에서 저자는 ADFA‑LD 데이터셋을 선택했는데, 이는 최신 공격을 포함한 소형 발자국(next‑generation) 공격 시나리오를 제공한다. 원본 데이터는 0.2% 수준의 이상 비율을 보이며, 이는 일반적인 오버샘플링 기법(SMOTE 등)이 과도한 중복을 만들 위험이 있다. Cycle‑GAN을 통해 생성된 합성 이상 이미지 5,000장을 원본 데이터와 결합한 뒤, ResNet‑18 기반 분류기를 학습시켰다. 실험 결과, 기존 불균형 데이터만 사용했을 때 AUC는 0.55, 탐지율은 17.07%에 불과했으나, GAN‑augmented 데이터로 학습했을 때 AUC는 0.71, 탐지율은 80.49%로 크게 상승했다. 또한, 동일한 양의 SMOTE‑synthetic 데이터를 사용했을 때는 AUC 0.63, 탐지율 45.22%에 그쳐, GAN 기반 생성이 더 풍부하고 다양성 있는 이상 샘플을 제공함을 확인했다.
기술적 한계로는 이미지 변환 과정에서 시퀀스 정보가 손실될 가능성, Cycle‑GAN 학습 시 모드 붕괴(mode collapse) 위험, 그리고 생성된 이미지가 실제 시스템 콜의 의미적 특성을 완전히 반영하는지에 대한 검증 부족을 들 수 있다. 또한, 실시간 탐지 시스템에 적용하기 위해서는 이미지 변환 및 GAN 추론 비용을 최소화해야 하는데, 현재 구현은 오프라인 실험에 국한되어 있다. 향후 연구에서는 시계열 GAN(예: TimeGAN)과 결합하거나, 변환 단계 없이 직접 시퀀스‑to‑시퀀스 GAN을 설계해 효율성을 높이는 방안을 모색할 수 있다. 전반적으로 본 논문은 비지도 이미지 변환 모델을 활용해 HIDS 데이터 불균형을 완화하고, 실제 탐지 성능을 크게 향상시킨 점에서 의미 있는 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기