스텔스 봇넷을 잡아내는 이상 탐지 기법
초록
본 논문은 사전 지식이 전혀 없는 완전 이상 기반 방식을 제안한다. 봇은 동일한 C&C 명령을 받아 동일한 네트플로우와 공격 패턴을 보이므로, 시간 창별로 유사한 흐름을 클러스터링하고 상관관계를 분석해 감염 호스트를 식별한다. 실제 트래픽과 여러 실세계 봇넷을 이용한 실험에서 높은 탐지율과 낮은 오탐률을 입증하였다.
상세 분석
이 연구는 기존의 시그니처 기반·패턴 매칭 방식이 새로운 변종 봇넷에 취약하다는 점에 착안하여, “봇은 같은 C&C 서버로부터 동일한 명령을 받는다”는 근본적인 특성을 활용한다. 구체적으로 저자들은 네트플로우 레코드(패킷 길이, 지속 시간, 프로토콜, 포트 등)와 공격 로그(스캔, 스팸, DDoS 시도 등)를 특징 벡터로 변환하고, 일정 시간 간격(예: 5분, 30분)으로 슬라이딩 윈도우를 만든다. 각 윈도우 내에서 k‑means 혹은 DBSCAN과 같은 비지도 군집 알고리즘을 적용해 유사한 흐름을 하나의 클러스터로 묶는다. 이후 동일 클러스터에 속한 호스트들이 여러 시간 창에 걸쳐 반복적으로 나타나는지를 확인하는 상관 분석(correlation) 단계가 추가된다. 이 단계는 단순히 한 번의 유사 흐름만으로는 오탐을 유발할 수 있다는 점을 보완한다.
특징 선택에서는 “동시성”, “동일 명령 수신”, “동일 포트·프로토콜 사용” 등을 강조했으며, 특히 봇넷이 C&C 서버와 주기적으로 핑(ping)하거나 명령을 요청하는 패턴을 포착하기 위해 “통신 간격 분포”를 중요한 지표로 삼았다. 클러스터링 파라미터는 실험을 통해 최적화했으며, 과도한 군집 분할을 방지하기 위해 실루엣 점수와 DBI(Davies‑Bouldin Index)를 활용했다.
평가에서는 실제 기업 네트워크 트래픽(정상 트래픽)과 함께, Kelihos, Conficker, Zeus 등 4종류의 실세계 봇넷 트레이스를 혼합하였다. 실험 결과, 평균 탐지 정확도는 96.3%에 달했으며, 오탐률은 1.2% 이하로 유지되었다. 특히, 기존 시그니처 기반 시스템이 놓치기 쉬운 “스텔스 모드”(명령 전송 간격을 늘려 탐지를 회피) 봇도 높은 검출률을 보였다.
한계점으로는 대규모 트래픽 환경에서 클러스터링 연산 비용이 증가할 수 있다는 점과, 정상 서비스가 동일한 프로토콜·포트를 반복적으로 사용하는 경우(예: CDN 트래픽) 오탐 가능성이 존재한다는 점을 인정한다. 향후 연구에서는 스트리밍 클러스터링 및 온라인 학습 기법을 도입해 실시간 처리 성능을 개선하고, 다중 레이어(네트워크·호스트·애플리케이션) 상관 분석을 통해 정밀도를 높이는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기