윈도우 랜섬웨어 네트워크 트래픽 탐지를 위한 머신러닝 기반 NetConverse

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Windows 환경에서 발생하는 랜섬웨어의 네트워크 대화 트래픽을 분석하여 악성 여부를 판별하는 머신러닝 모델 NetConverse를 제안한다. 9개 랜섬웨어 패밀리(210개 샘플)와 3종류의 정상 프로그램(264개 샘플)으로 구성된 데이터셋에서 13개의 네트워크 특징을 추출하고 전처리 후 9개 특징을 사용하였다. WEKA 환경에서 6가지 분류기를 비교한 결과, 결정트리 J48이 97.1%의 true‑positive rate와 1.6%의 false‑positive rate를 기록하며 가장 우수한 성능을 보였다.

상세 분석

이 연구는 랜섬웨어 탐지 분야에서 기존의 정적·동적 분석을 보완하기 위해 네트워크 레벨에서의 행동 패턴을 활용한다는 점에서 의미가 크다. 데이터 수집 단계에서는 VirusTotal Intelligence와 Ransomware Tracker를 활용해 실제 악성 샘플의 PCAP 파일을 확보했으며, 정상 트래픽은 동일 플랫폼에서 0 검출(antivirus)된 실행 파일을 선택해 균형 잡힌 라벨링을 수행했다. 이렇게 수집된 474 개의 PCAP 파일을 TShark의 conversation export 기능으로 5‑tuple(프로토콜, src/dst IP, src/dst 포트) 기반 대화 단위로 집계하고, 패킷 수·바이트 수·양방향 전송량·시작 시간·지속시간 등 13개의 기본 통계치를 추출하였다. 전처리 과정에서 0.0.0.0 주소와 DNS(포트 53) 트래픽을 제거하고, IP 주소를 10진수로 변환함으로써 모델 학습에 불필요한 잡음을 최소화했다. 최종적으로 9개의 특징(프로토콜, srcIP, srcPort, dstIP, dstPort, 양방향 패킷·바이트 수)만을 사용해 데이터 차원을 축소했으며, 이는 모델의 학습 속도와 일반화 성능에 긍정적인 영향을 미쳤다.

머신러닝 단계에서는 WEKA 3.8.1을 이용해 BayesNet, MultilayerPerceptron, J48, IBK(K‑NN), RandomForest, LMT 등 6가지 알고리즘을 기본 파라미터 설정으로 실험했다. 10‑fold 교차 검증과 별도 테스트 셋(훈련 60.91 %, 테스트 39.09 %)을 병행함으로써 과적합 위험을 완화하고 실제 배포 환경에서의 성능을 추정했다. 결과적으로 J48 결정트리는 TPR 97.10 %와 FPR 1.60 %를 달성했으며, 이는 다른 모델에 비해 현저히 낮은 오탐률을 의미한다. 특히 특징 선택(10 → 8 개) 후에도 J48의 성능이 변하지 않은 점은 해당 모델이 핵심 특징에 강인함을 보여준다. 반면 RandomForest는 특징 감소 시 약간의 성능 저하를 보였고, MultilayerPerceptron은 학습 시간이 크게 늘어나는 단점이 있었다.

이 논문의 강점은 실제 악성·정상 트래픽을 기반으로 한 실험 데이터셋을 공개하고, 네트워크 레벨에서의 간단하지만 효과적인 특징을 제시했다는 점이다. 그러나 몇 가지 한계도 존재한다. 첫째, 샘플 수가 비교적 적고, 각 패밀리당 30 개 정도로 균등하게 배분했기 때문에 최신 변종이나 대규모 배포형 랜섬웨어에 대한 일반화 가능성이 제한될 수 있다. 둘째, IP 주소를 10진수로 변환한 것은 모델에 위치 정보를 직접 주입하는 형태이지만, 이는 IP 재배포나 프록시 사용 시 의미가 퇴색될 위험이 있다. 셋째, 실험 환경이 가상 머신 기반이며 네트워크 트래픽이 제한된 상황에서 수집되었으므로, 실제 기업 네트워크의 복잡한 프로토콜 혼합이나 암호화 트래픽에 대한 대응 능력은 검증되지 않았다. 마지막으로, 모델이 단일 특징 집합에 의존하기 때문에 고도화된 회피 기법(예: 트래픽 패딩, 동적 포트 변조)에는 취약할 가능성이 있다.

향후 연구에서는 (1) 더 다양한 랜섬웨어 변종과 대규모 샘플을 포함한 데이터셋 구축, (2) 흐름 기반의 시계열 특징(패킷 간 인터‑arrival time, 변동성) 및 암호화 트래픽 분석을 결합한 멀티모달 접근, (3) 온라인 학습 및 개념 드리프트 감지를 통한 실시간 대응 모델 개발, (4) IP 주소 대신 도메인·TLS SNI 등 고수준 메타데이터를 활용한 프라이버시 보존형 특징 설계 등을 제안한다. 이러한 확장을 통해 NetConverse가 실제 기업 환경에서 지속 가능한 랜섬웨어 방어 체계의 핵심 구성 요소로 자리매김할 수 있을 것이다.

윈도우 랜섬웨어 네트워크 트래픽 탐지를 위한 머신러닝 기반 NetConverse

초록

상세 분석

댓글 및 학술 토론

의견 남기기