웹 접근 행동 기반 이상 탐지와 문서 순위 알고리즘
초록
본 논문은 기존 페이지랭크·근접 그래프 기반 방법이 높은 연산 비용을 요구하는 문제를 해결하고자, 웹 접근 로그를 “누가, 무엇을, 몇 번” 접근했는지를 기록하고 평균 순위를 계산하는 Web Access Table(WAT) 메커니즘을 제안한다. 학습 단계에서 정상 사용자들의 접근 빈도와 순위 분포를 모델링하고, 테스트 단계에서 실시간 로그와 비교해 비정상적인 접근 패턴을 빠르게 탐지한다. 제안 방식은 계산 복잡도가 낮아 대규모 트래픽 환경에서도 실시간 대응이 가능하다는 장점을 가진다.
상세 분석
이 논문은 최근 급증하고 있는 애플리케이션 계층 DDoS 공격, 특히 정상적인 HTTP 요청을 가장해 서버 자원을 고갈시키는 형태의 공격을 탐지하기 위한 새로운 프레임워크를 제시한다. 기존 연구에서는 페이지랭크(PageRank)나 근접 그래프(proximity graph)를 이용해 웹 페이지 간 연관성을 모델링하고, 이상 행동을 그래프 탐색을 통해 식별하려 했지만, 그래프 구축·검색 과정에서 O(N²) 수준의 시간 복잡도가 발생해 실시간 적용이 어려웠다. 논문은 이러한 한계를 인식하고, 웹 접근 로그를 테이블 형태로 정리하는 Web Access Table(WAT)을 도입한다. WAT은 세 가지 핵심 속성을 저장한다: (1) 사용자 식별자(IP 혹은 세션 ID), (2) 접근 대상 문서(URL), (3) 해당 문서에 대한 접근 횟수와 평균 순위. 여기서 “순위”는 페이지랭크와 유사하게 각 문서가 전체 트래픽 내에서 차지하는 상대적 중요도를 의미하지만, 사전에 전체 그래프를 계산하지 않고 로그 기반 빈도와 가중치를 이용해 간단히 추정한다.
학습 단계에서는 정상 트래픽을 수집해 각 사용자‑문서 쌍에 대한 기대 빈도와 순위 분포를 구축한다. 이때 통계적 임계값(예: 평균±2σ)을 설정해 정상 범위를 정의한다. 테스트 단계에서는 실시간으로 들어오는 로그를 WAT와 매칭시켜, 현재 접근 빈도가 학습된 기대값을 크게 벗어나면(예: 3σ 이상) 해당 세션을 이상으로 플래그한다. 또한, 특정 문서에 대한 순위 급등(예: 평소 낮은 순위였던 페이지가 갑자기 높은 접근 빈도를 보이는 경우)도 별도 경고 신호로 활용한다.
핵심 장점은 다음과 같다. 첫째, 그래프를 명시적으로 구성하지 않으므로 메모리 사용량과 연산량이 크게 감소한다. 둘째, 로그 기반이므로 기존 웹 서버나 프록시에서 쉽게 추출 가능한 데이터만으로 구현이 가능해 배포 비용이 낮다. 셋째, 접근 빈도와 순위라는 두 축을 동시에 고려함으로써 단순 트래픽 폭증만이 아니라 “정상적인 요청 형태를 모방한 미세한 변조”까지 탐지할 수 있다.
하지만 몇 가지 한계도 존재한다. WAT는 정적 임계값에 크게 의존하므로, 트래픽 패턴이 계절적·시간적 변동을 보이는 서비스에서는 오탐·누락 위험이 있다. 또한, 공격자가 정상 사용자의 접근 패턴을 학습해 동일한 빈도·순위 분포를 재현한다면 탐지가 어려워진다. 마지막으로, 현재 제안된 모델은 사용자 식별자를 IP 기반으로 가정하고 있어 NAT나 프록시 뒤에 숨은 다수 사용자를 구분하기 어렵다. 이러한 점들을 보완하기 위해서는 동적 임계값 조정, 머신러닝 기반 이상 점수 계산, 그리고 쿠키·세션 정보와 같은 추가 식별자를 활용한 다중 레이어 분석이 필요하다.