에이전트와 북마크, 클릭: 웹 트래픽을 설명하는 토픽 모델
초록
본 논문은 1,000명 이상의 실제 사용자를 대상으로 수집한 웹 클릭 데이터를 분석해, 기존 PageRank와 같은 마코프 모델이 설명하지 못하는 페이지 방문 다양성, 세션 길이, 엔트로피 등을 규명한다. 저자들은 북마크 기반 텔레포트, 뒤로가기·탭 브라우징, 그리고 페이지 간 토픽 연관성을 고려한 에이전트 기반 모델(ABC)을 제안하고, 이를 통해 집합적·개별적 트래픽 특성을 모두 재현함을 보인다.
상세 분석
이 연구는 웹 트래픽 분석에 있어 두 가지 차원을 동시에 고려한다는 점에서 의미가 크다. 첫째, 집합적 통계(페이지·링크 트래픽 분포, 세션 시작 페이지의 인기)와 개인별 통계(샤논 엔트로피, 세션 크기·깊이)의 불일치를 기존 마코프 모델이 설명하지 못한다는 사실을 실증적으로 입증한다. 특히 PageRank는 균일한 링크 선택과 무작위 텔레포트를 가정하지만, 실제 사용자는 특정 페이지를 즐겨 찾고, 이전에 방문한 페이지로 되돌아가거나 탭을 전환하는 등 비마코프적 행동을 보인다.
둘째, 저자들은 이러한 비마코프적 행동을 세 가지 핵심 메커니즘으로 모델링한다. (1) 북마크 메모리: 각 에이전트는 방문 빈도에 따라 순위가 매겨진 북마크 리스트를 유지하고, 새로운 세션을 시작할 때 이 리스트에서 선택한다. 이는 텔레포트 대상이 균일하지 않으며, 실제 사용자들이 즐겨 찾는 시작 페이지의 이질성을 재현한다. (2) 백버튼·탭 브라우징: 에이전트는 현재 페이지에서 이전 페이지로 되돌아가거나, 이미 열려 있는 다른 탭으로 이동할 수 있다. 이는 세션 트리에서 가지(branch)가 형성되는 현상을 설명하고, 세션 깊이와 크기의 긴 꼬리 분포를 생성한다. (3) 토픽 로컬리티와 흥미 기반 지속성: 페이지 간 토픽 유사도가 높을수록 에이전트가 다음 페이지를 탐색할 확률이 증가한다. 흥미가 낮은 페이지를 만나면 세션을 종료하고 새로운 북마크 텔레포트를 수행한다. 이 메커니즘은 세션 길이가 지수적이 아닌 멱법칙적 분포를 갖게 하며, 실제 데이터에서 관찰된 이질적인 세션 길이를 설명한다.
실험 결과, 제안된 ABC 모델은 PageRank와 BookRank보다 페이지·링크 트래픽 분포, 세션 시작 페이지 인기, 그리고 개인별 엔트로피와 세션 크기·깊이 분포 모두에서 더 높은 적합도를 보인다. 특히 엔트로피 측면에서, 개인별 페이지 방문 다양성이 낮은 반면 전체 집합에서는 높은 다양성을 보이는 현상을 정확히 재현한다. 이는 “집합적 이질성 = 개인별 집중성”이라는 핵심 통찰을 모델이 포착했음을 의미한다.
또한, 저자들은 데이터 수집 방법론을 상세히 기술한다. 1 Gbps 네트워크 미러링을 통해 2 개월간 4 억 건 이상의 HTTP GET 요청을 캡처하고, MAC 주소를 기반으로 1 천 명 이상의 사용자를 식별했다. HTTPS 트래픽은 제외했으며, URL 확장자를 이용해 비페이지 요청을 필터링하고, 개인정보 보호를 위해 쿼리 파라미터를 익명화했다. 세션은 타임아웃이 아닌 referrer 기반 트리 구조로 정의했으며, 이는 탭 브라우징과 백버튼 사용을 자연스럽게 반영한다.
이 논문의 가장 큰 기여는 (1) 기존 마코프 모델이 놓친 비마코프적 행동을 정량화하고, (2) 세 가지 실증적 메커니즘을 결합한 에이전트 기반 모델을 제시함으로써, 집합적·개별적 웹 트래픽 특성을 동시에 설명한다는 점이다. 또한, 이러한 모델은 검색 엔진 순위, 웹 크롤러 설계, 광고 수익 예측 등 실무적 응용 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기