통합 호스트·네트워크 데이터셋: 실전 사이버 보안 연구를 위한 새로운 자원

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로스앨러미스 국립연구소(LANL) 운영 네트워크에서 90일간 수집된 Windows 호스트 로그와 Cisco NetFlow V9 기반 네트워크 흐름 데이터를 통합·정제하여 공개한다. 개인정보와 보안을 위해 식별자를 무작위화하고, 흐름을 양방향(biflow) 형태로 스티칭한 뒤 CSV 형식으로 제공한다. 데이터 품질 평가와 활용 가능 연구 분야를 제시함으로써 사이버 보안 연구 커뮤니티에 실용적인 데이터 자산을 제공하고, 타 기관의 데이터 공개를 촉진하고자 한다.

상세 분석

이 데이터셋은 두 가지 주요 소스, 즉 Windows 기반 호스트 이벤트 로그와 Cisco 라우터에서 추출한 NetFlow V9 레코드를 결합한다. 호스트 로그는 주로 운영 체제 수준의 프로세스 실행, 로그인, 파일 접근 등 내부 행위를 기록하고, NetFlow는 IP‑IP 레벨에서의 트래픽 흐름을 5‑tuple(출발 IP, 목적 IP, 출발 포트, 목적 포트, 프로토콜) 형태로 집계한다. 수집된 NetFlow는 기본적으로 단방향(uniflow)이며, 동일 연결에 대해 양쪽 방향 레코드가 별도로 존재한다. 논문에서는 포트 번호를 이용한 휴리스틱(예: 목적 포트가 1024 미만이면 목적, 상위 90개 포트는 목적 등)으로 흐름의 방향을 추정하고, 양방향 레코드를 하나의 biflow 로 합치는 ‘스티칭’ 과정을 적용했다. 이 과정은 중복 흐름을 집계하고, 시작·종료 시간을 최소·최대로 조정해 데이터 양을 크게 줄이며 모델링에 적합한 형태로 만든다.

식별자 익명화는 두 단계로 이루어진다. 첫째, IP‑FQDN 매핑을 위해 DNS·DHCP 로그를 활용해 시간에 따라 변하는 IP 주소를 정규화된 호스트명으로 변환한다. 매핑이 불가능한 경우에는 “IP.” 접두어를 붙인 무작위 ID를 부여한다. 둘째, 포트 번호와 호스트명을 모두 무작위 문자열로 교체해 개인 및 인프라 정보를 보호한다. 다만, 잘 알려진 포트(예: 80, 443, 22 등)와 시스템 수준 사용자·프로세스 이름은 익명화하지 않아 연구자가 서비스 특성을 파악할 수 있게 했다.

데이터 품질 분석에서는 biflow 중 약 57%가 한쪽 방향의 패킷 수가 0인 경우가 발견되었다. 이는 라우터가 한 방향만 내보내도록 설정된 경우와 포트 스캔 등 응답이 없는 트래픽이 원인이다. 또한, IP‑FQDN 매핑 실패가 목적지 호스트에서 더 빈번히 발생했으며, 이는 DNS 로그의 불완전성이나 동적 IP 사용이 원인으로 추정된다. 프로토콜별 비중은 TCP(≈30%), UDP(≈60%), ICMP(≈10%) 정도였으며, UDP와 ICMP의 장기 흐름이 다수 존재해 전통적인 TCP 중심 분석만으로는 포착하기 어려운 트래픽 패턴을 제공한다.

이 데이터셋은 다음과 같은 연구 기회를 제공한다. (1) 흐름 기반 이상 탐지 및 lateral movement 식별, (2) 호스트 로그와 흐름 데이터를 연계한 행위 기반 위협 모델링, (3) 프라이버시 보호를 위한 데이터 익명화 기법 평가, (4) 네트워크 토폴로지 재구성 및 서비스 맵핑, (5) 합성 데이터와 실제 데이터의 차이 분석 등. 그러나 IP 주소의 일시적 변동, 흐름 중복 및 방향 추정 오류 등 한계가 남아 있어 연구자는 전처리 단계에서 추가적인 정제와 보완을 고려해야 한다.

통합 호스트·네트워크 데이터셋: 실전 사이버 보안 연구를 위한 새로운 자원

초록

상세 분석

댓글 및 학술 토론

의견 남기기