웹 로그를 통한 인간 행동 역학 분석
본 논문은 2005‑2006년 기간 동안 에모리 대학교 웹 서버에 기록된 익명화 로그를 분석하여, 대학 구성원의 일일·주간·학기별 웹 이용 패턴을 밝히고, 사용자와 페이지 사이의 연결이 선형 선호(linking)와 우선순위 기반 대기열 모델에 의해 설명될 수 있음을 제시한다.
저자: Bruno Goncalves, Jose J. Ramasco
본 논문은 에모리 대학교(미국 조지아주) 웹 서버에 저장된 2005년 4월 1일부터 2006년 1월 17일까지의 로그 데이터를 이용해 인간 행동 역학을 탐구한다. 로그는 익명화된 IP 주소, 요청된 URL, 타임스탬프 등으로 구성되며, 분석을 위해 사진·로고 등 비콘텐츠 파일은 제외하고 .htm(l), .cfm, .php, .asp(x), .jsp, .txt 등 실제 페이지에 한정하였다. 전체 데이터는 3백만 명 이상의 방문자, 2백오십만 개 페이지, 5천3백만 클릭을 포함한다.
Ⅰ. 집단 행동 패턴
일별 클릭 수를 조사한 결과, 주기적 변동이 뚜렷하게 나타났으며, 주 7일 주기의 진동이 가장 강했다. 학기 시작(8월 중순)과 종료(12월 말) 시점에는 클릭 수가 급증·감소하는 특성이 관찰되었다. 주중 평균 클릭 수는 월요일이 가장 낮고, 화·수·목·금 순으로 증가해 금요일에 최고에 도달한다. 주말, 특히 일요일은 현저히 낮다. 시간대별 분석에서는 오전 7시부터 오후 6시까지가 가장 활발하고, 11시~14시 사이에 점심시간으로 인한 급격한 감소가 있다. 토요일은 평일과 큰 차이가 없으며, 일요일만 독특한 프로파일을 보인다. 이러한 일·주·학기 주기의 패턴은 인간의 업무·학습 리듬과 일치한다.
특히 추수감사절 전후 주를 별도로 분석하면, 전통적인 휴일 기간(목~일) 동안 클릭 수가 크게 감소하고, 전후 월요일이 평소보다 낮으며, 화요일이 오히려 평소보다 높아지는 비대칭 현상이 나타난다. 이는 휴일 전후의 업무 재조정과 보상적 작업 증가를 반영한다.
Ⅱ. 개별 사용자 행동
개별 IP별 활동을 살펴보면, 활동량 분포가 매우 넓어 전형적인 “평균 사용자”를 정의하기 어렵다. 세 가지 전형적인 사례를 제시한다. 첫 번째는 4월 4일에 발생한 금융 페이지에 대한 대량 요청으로, 짧은 시간에 수천 건의 요청을 발생시킨 악성 공격이다. 두 번째는 정기적인 소프트웨어 업데이트 확인을 위한 자동화된 봇으로, 일정 간격으로 페이지를 방문한다. 세 번째는 인간 사용자가 행정 사이트에 데이터를 입력하는 경우로, 방문 간격이 불규칙하고, 일정 기간 동안 활동이 집중된 뒤 긴 침묵기가 이어진다.
시간 간격 τ에 대한 확률 분포를 두 가지로 나누어 분석한다. (a) 동일 URL에 대한 연속 방문 간격 P(τ_v)와 (b) 동일 사용자가 도메인 내 어느 페이지든 클릭하는 간격 P(τ_c)이다. P(τ_c)는 τ⁻¹·²⁵ 형태의 파워‑law를 따르고, P(τ_v)는 τ⁻¹·⁰⁰에 가까운 더 완만한 감소를 보인다. 이는 사용자가 하나의 작업을 수행하기 위해 여러 페이지를 연속적으로 클릭한다는 점을 시사한다.
이를 설명하기 위해 Barabási의 우선순위 대기열 모델을 도입한다. 사용자는 여러 작업을 가지고 있으며, 각 작업에 무작위 우선순위를 부여한다. 매 시간 단계마다 가장 높은 우선순위 작업을 확률 p(≈1)로 선택하거나, 무작위로 선택한다. 작업 수행 후 새로운 작업이 큐에 삽입된다. 이 모델은 τ⁻¹ 형태의 대기 시간 분포를 생성한다. 저자들은 모델을 확장해 한 번에 ν>2개의 작업을 동시에 선택하도록 하여, 실험적으로 τ⁻¹·²⁵와 같은 지수를 재현한다. 즉, 인간이 하나의 작업을 완수하기 위해 여러 페이지를 순차적으로 방문한다는 가정이 모델에 반영된 것이다.
Ⅲ. 선형 선호와 네트워크 성장
다음으로 페이지와 IP 사이의 연결 성장 메커니즘을 조사한다. 특정 페이지(URL) 혹은 특정 IP가 이미 받은 클릭 수 k와 다음 시간 단위에서 평균 증가량 ⟨Δk⟩ 사이에 ⟨Δk⟩≈A·k+B 형태의 선형 관계가 존재함을 확인하였다. 이는 “부익부” 현상이 사용자‑페이지 네트워크에서도 작동한다는 증거이며, 새로운 연결이 기존에 많이 연결된 요소에 더 많이 발생한다는 선형 선호(linear preferential attachment) 규칙을 의미한다.
이러한 선형 선호는 기존 웹 그래프 모델(Barabási‑Albert)과 유사하지만, 여기서는 사용자와 페이지 사이의 이중 이분 그래프에 적용되었다. 결과적으로, 페이지와 IP 모두가 시간에 따라 파워‑law 형태의 연결 분포를 형성한다.
Ⅳ. 종합 및 의의
본 연구는 (1) 대규모 웹 로그를 통해 인간의 집단적·개별적 행동 리듬을 정량화하고, (2) 우선순위 기반 대기열 모델과 선형 선호 메커니즘이 웹 탐색 역학을 설명하는 핵심 요소임을 실증한다는 두 가지 주요 기여를 한다. 이러한 결과는 웹 서비스 설계 시 트래픽 예측, 서버 자원 배분, 사이버 보안(비정상적 패턴 탐지) 등에 직접 활용될 수 있다. 또한, 디지털 사회에서 인간 행동을 모델링하는 학문적 기반을 제공하며, 향후 다양한 온라인 플랫폼(소셜 미디어, 모바일 앱 등)에도 동일한 분석 프레임워크를 적용할 가능성을 열어준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기