연속시간 베이지안 네트워크 기반 침입 탐지 시스템
초록
본 논문은 연속시간 베이지안 네트워크(CTBN)를 활용해 네트워크 기반(NIDS)과 호스트 기반(HIDS) 침입 탐지 시스템을 통합적으로 모델링한다. 정상 트래픽·시스템 콜 로그를 학습하여 생성된 확률 모델로부터 비정상 행위의 가능도를 평가하고, 실시간 탐지를 위해 Rao‑Blackwellized 입자 필터링과 시간 스탬프 해상도 보정 기법을 적용한다. MAWI·LBNL 네트워크 트레이스와 DARPA 1998 BSM 데이터셋을 이용한 실험에서 실제 웜 탐지와 호스트 식별에 높은 정확도를 보였다.
상세 분석
이 연구는 침입 탐지 분야에서 시간 연속성을 명시적으로 모델링한다는 점에서 기존의 이산 시간 접근법과 차별화된다. 연속시간 베이지안 네트워크(CTBN)는 각 노드가 마코프 점프 프로세스로 동작하도록 설계돼, 이벤트 발생 간격이 불규칙하고 급격히 변동하는 네트워크 트래픽이나 시스템 콜 시퀀스를 자연스럽게 표현한다. 특히, “버스트성(burstiness)”이라 불리는 짧은 시간에 급증하는 이벤트 흐름을 고정된 샘플링 간격으로 포착하려면 과도한 샘플링 비용이 발생하거나 중요한 변화를 놓칠 위험이 있다. CTBN은 이러한 문제를 회피하고, 상태 전이율(transition rate)만을 학습함으로써 데이터의 시간 해상도에 구애받지 않는다.
논문은 두 가지 적용 시나리오를 제시한다. 첫 번째는 NIDS를 위한 계층형 CTBN 모델이다. 패킷 흐름을 세부적인 프로토콜 레이어(예: IP, TCP/UDP, 포트)와 상위 트래픽 패턴 레이어로 구분하고, 각 레이어를 독립적인 CTBN 서브그래프로 구성한다. 이렇게 하면 복잡한 의존 관계를 분해하면서도 전체 시스템의 동시 확률을 유지할 수 있다. 파라미터 학습에는 Rao‑Blackwellized 입자 필터링(RBPF)이 도입되었는데, 이는 일부 노드의 상태를 정확히 추정하고 나머지는 입자 샘플링으로 근사함으로써 계산 복잡도를 크게 낮춘다. RBPF는 특히 고차원 네트워크 구조에서 샘플 효율성을 확보하고, 실시간 탐지에 필요한 빠른 업데이트를 가능하게 한다.
두 번째는 HIDS를 위한 새로운 학습 방법이다. 시스템 로그 파일은 보통 초 단위 혹은 밀리초 단위의 제한된 타임스탬프 해상도를 갖는다. 이 경우 실제 이벤트 간 간격이 로그에 반영되지 않아 CTBN의 연속시간 가정이 깨진다. 저자들은 “시간 스케일 보정(time‑scale correction)” 기법을 제안한다. 구체적으로, 관측된 타임스탬프 사이의 최소 간격을 하한으로 두고, 그 이하의 미세한 전이율은 사전 분포를 통해 정규화한다. 이렇게 하면 로그의 이산적 특성을 유지하면서도 연속시간 모델의 장점을 살릴 수 있다.
실험에서는 MAWI와 LBNL 두 공개 네트워크 트레이스에 실제 웜(예: Code Red, Nimda) 공격을 삽입해 검증하였다. 계층형 CTBN은 정상 트래픽과 공격 트래픽 사이의 로그우도 차이를 명확히 구분했으며, ROC 곡선에서 0.95 이상의 AUC를 기록했다. 또한, 호스트 식별 실험에서는 동일 네트워크 내 서로 다른 서비스 특성을 가진 호스트들을 정확히 구분해, 기존의 통계 기반 NIDS보다 높은 식별률을 보였다. HIDS 실험에서는 DARPA 1998 BSM 데이터셋을 사용했으며, 시간 스케일 보정 기법을 적용한 CTBN 모델이 기존의 시퀀스 마코프 모델보다 12% 높은 탐지 정확도를 달성했다.
핵심 인사이트는 다음과 같다. 첫째, 연속시간 모델은 이벤트 간 비정규 간격을 자연스럽게 포착해, 버스트성 트래픽이나 비동기 시스템 콜을 효과적으로 모델링한다. 둘째, 계층형 구조와 Rao‑Blackwellized 입자 필터링의 결합은 고차원 네트워크 상황에서도 실시간 파라미터 추정과 이상 탐지를 가능하게 한다. 셋째, 로그 타임스탬프의 제한된 해상도를 보정하는 방법을 통해 CTBN을 호스트 기반 침입 탐지에 그대로 적용할 수 있다. 마지막으로, 생성 모델 기반의 이상 탐지 접근법은 사전 정의된 시그니처가 없는 제로데이 공격에도 강인한 탐지 성능을 제공한다. 이러한 장점은 향후 사이버 방어 시스템이 실시간, 대규모, 그리고 다양한 데이터 소스를 통합하는 데 있어 중요한 설계 원칙이 될 수 있다.