AlertBERT 소음에 강한 동시 사이버 공격 경보 그룹화 프레임워크

AlertBERT 소음에 강한 동시 사이버 공격 경보 그룹화 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AlertBERT는 마스크드 언어 모델과 밀도 기반 클러스터링을 결합한 자기지도 학습 프레임워크로, 대규모 네트워크 환경에서 발생하는 높은 잡음과 동시 다발 공격 상황에서도 보안 알림을 효과적으로 그룹화한다. 새로운 데이터 증강 기법을 통해 다양한 잡음 수준을 시뮬레이션하고, 기존의 시간 기반 방법보다 높은 정확도를 달성한다.

상세 분석

본 논문은 사이버 보안 운영센터에서 흔히 겪는 ‘알림 피로’ 문제를 근본적으로 해결하고자, 알림 그룹화를 위한 새로운 패러다임을 제시한다. 기존의 시간‑델타 방식은 알림 타임스탬프만을 이용해 일정 시간 차 이하를 같은 그룹으로 묶는 단순한 규칙 기반 접근법으로, 잡음이 적고 공격이 순차적으로 발생하는 소규모 네트워크에서는 효과적이지만, 대규모 환경에서는 (1) 알림 밀도가 시간에 따라 급격히 변동하고, (2) 백그라운드 잡음이 지속적으로 높으며, (3) 여러 공격이 시간적으로 겹쳐 발생하는 경우에 그룹을 정확히 구분하지 못한다.

AlertBERT는 이러한 한계를 극복하기 위해 두 단계로 구성된 프레임워크를 설계한다. 첫 번째 ‘Embedding‑Phase’에서는 IDS가 생성한 JSON 형태의 알림을 텍스트 시퀀스로 변환하고, BERT 기반 마스크드 언어 모델을 이용해 각 알림을 고차원 임베딩으로 매핑한다. 마스크드 언어 모델은 사전 학습된 가중치를 활용하면서, 알림 내부의 키‑값 쌍(예: IP, 포트, 메시지 등)을 토큰화하고, 무작위 마스킹을 통해 자기지도 학습을 수행한다. 이 과정에서 알림 간 의미적 유사성이 임베딩 거리로 반영되며, 동일 공격에 의해 생성된 알림은 근접한 벡터 클러스터를 형성한다.

두 번째 ‘Grouping‑Phase’에서는 시간 차원과 임베딩 거리 두 축을 동시에 고려한다. 저밀도 영역을 자동으로 탐지하는 DBSCAN·HDBSCAN과 같은 밀도 기반 클러스터링 알고리즘을 적용함으로써, 알림이 시간적으로 겹치더라도 임베딩 공간에서 충분히 구분될 경우 별도 그룹으로 분리된다. 또한, 클러스터링 파라미터(ε, 최소 샘플 수 등)를 잡음 수준에 따라 동적으로 조정할 수 있도록, 논문에서는 잡음 제어가 가능한 데이터 증강 방법을 제안한다. 이 방법은 기존 데이터에 가짜 알림(잡음)과 추가 공격 시퀀스를 삽입해 다양한 시나리오를 합성함으로써, 모델이 높은 잡음 환경에서도 강인하게 학습되도록 돕는다.

실험에서는 공개된 AIT Alert Dataset와 자체 생성한 잡음‑다중 공격 데이터셋을 활용했다. 평가 지표는 정밀도, 재현율, F1‑score 및 클러스터링 품질 지표(Silhouette) 등을 포함한다. 결과는 AlertBERT가 시간‑델타 방식 대비 평균 18% 이상의 F1‑score 향상을 보였으며, 특히 잡음 비율이 30% 이상일 때도 안정적인 그룹화를 유지함을 보여준다. 또한, 실시간 스트리밍 모드와 포렌식(오프라인) 모드 모두에서 처리 지연이 수백 밀리초 수준으로, 실무 적용 가능성을 입증한다.

핵심 기여는 (1) 알림 텍스트를 직접 활용한 자기지도 임베딩 학습, (2) 임베딩과 시간 정보를 결합한 밀도 기반 클러스터링 설계, (3) 잡음 제어가 가능한 데이터 증강 프레임워크 제공이다. 이러한 설계는 기존 방법이 요구하는 복잡한 속성별 파라미터 튜닝을 크게 감소시키고, 다양한 IDS 포맷에 대한 범용성을 확보한다. 향후 연구에서는 멀티모달(네트워크 흐름, 시스템 로그) 데이터를 통합한 확장과, 대규모 실시간 배포를 위한 경량화 모델 탐색이 제안된다.


댓글 및 학술 토론

Loading comments...

의견 남기기