DNS 그래프 마이닝에서 민첩성 편향의 실태와 교훈
초록
본 논문은 도메인‑IP 매핑이 빈번히 변하는 ‘민첩한 DNS’가 bipartite DNS 그래프를 구축하고 분석할 때 초래하는 학습 편향과 샘플링 편향을 정량적으로 평가한다. 두 가지 기존 지표(플럭시니스와 누적 주소 수)를 활용해, 여러 차례의 실시간 DNS 조회를 통해 얻은 장기 데이터셋을 분석한 결과, CDN·클라우드 서비스에 의해 발생하는 극단적 변동이 그래프 구조에 심각한 왜곡을 일으킴을 확인한다.
상세 분석
이 연구는 DNS 민첩성을 두 가지 관점에서 측정한다. 첫 번째는 ‘학습 편향’으로, 충분한 조회 라운드 수(q)가 확보되지 않을 경우 그래프에 포함돼야 할 도메인·IP 정점과 연결이 누락되는 현상을 말한다. 저자는 실험에서 q=1에서 q=3000까지의 라운드를 순차적으로 늘리며, 정점·간선의 수가 어떻게 수렴하는지를 관찰하였다. 결과는 대부분의 도메인이 초기 몇 라운드에서 대부분의 주소를 드러내지만, CDN·클라우드 기반 도메인은 수천 라운드에 걸쳐서도 새로운 IP가 지속적으로 추가되는 패턴을 보였다. 이는 학습 라운드가 부족하면 ‘거짓 음성’ 정점·간선이 대량 발생한다는 것을 의미한다.
두 번째는 ‘샘플링 편향’이다. 여기서는 극단적으로 변동이 큰 도메인, 즉 fast‑flux 혹은 CDN에 의해 다수의 IP로 매핑되는 도메인을 그래프에서 제외하거나 과소표현했을 때 전체 네트워크 통계가 어떻게 왜곡되는지를 평가한다. 플럭시니스(단일 조회당 주소 수 대비 전체 고유 주소 수)와 누적 주소 수(φ) 지표를 이용해, 민첩한 도메인의 변동성을 정량화하였다. 플럭시니스가 1에 가깝게 안정된 도메인과 달리, CDN 도메인은 라운드마다 1~2개의 주소만 교체하거나, 때로는 수십 개의 새로운 주소가 추가되는 급격한 변화를 보였다. 이러한 변동은 그래프의 차수 분포, 클러스터링 계수, 연결성 등 전반적인 구조적 특성을 크게 바꾸어, 정적 그래프 기반의 악성 도메인 탐지 모델이 높은 오탐·누락률을 보이게 만든다.
실험에 사용된 두 개의 장기 DNS 데이터셋은 각각 수천 개 도메인에 대해 3000회 이상의 실시간 조회를 수행한 결과이며, IPv4와 IPv6 모두를 포함한다. 분석 결과, 전체 정점 수는 약 30% 정도가 ‘극단적 민첩성’ 도메인에 의해 차지되었으며, 이들 정점이 제거될 경우 그래프의 평균 경로 길이가 15% 증가하고, 연결된 컴포넌트 수가 두 배 이상 늘어나는 등 구조적 붕괴 현상이 관찰되었다.
논문은 이러한 결과를 바탕으로, DNS 그래프 마이닝에서 동적 그래프 모델링이 필수적이며, 특히 CDN·클라우드 서비스가 제공하는 주소 변동성을 반영한 시계열 그래프 혹은 스트리밍 그래프 접근법을 제안한다. 또한, 플럭시니스와 누적 주소 수와 같은 지표를 사전 필터링 단계에 도입해, 급격히 변동하는 정점을 별도 처리하거나 가중치를 조정함으로써 학습 편향과 샘플링 편향을 완화할 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기