포털 탐색 행동의 스케일링 규칙
초록
본 연구는 포털 사이트 내 서브페이지 전이 데이터를 기반으로 가중 네트워크를 구축하고, 링크 가중치와 노드 강도, 체류 시간 등의 통계적 분포가 멱법칙을 따름을 확인한다. 사용자가 방문한 고유 서브페이지 수는 지수분포를 보이며, 전이 횟수와 고유 페이지 수 사이에 제곱근 관계가 존재한다. 이러한 현상을 자기흡인 랜덤워크 모델로 설명하고, 분석 모델을 제시한다.
상세 분석
논문은 포털 이용자의 클릭 흐름을 시간 순서대로 기록해 서브페이지 간 전이 횟수를 가중치로 하는 무방향 네트워크를 구성한다. 링크 가중치 w_{ij}와 노드 강도 s_i(연결된 모든 w의 합)의 분포가 각각 P(w)∼w^{-α}, P(s)∼s^{-β} 형태의 멱법칙을 보이며, α와 β는 수십 옥텟에 걸쳐 안정적으로 유지된다. 특히 s와 연결 차수 k 사이의 관계는 s∼k^{γ} (γ>1) 로, 고차수 노드가 선형보다 빠르게 강도를 축적한다는 의미다. 이는 포털 구조가 ‘핵심 페이지’ 중심으로 트래픽이 집중되는 스케일프리 특성을 반영한다.
사용자가 한 페이지에 머무는 시간 τ의 분포는 P(τ)∼τ^{-δ} (δ≈1.3) 로, 짧은 체류와 긴 체류가 모두 빈번히 발생하는 ‘버스턴 현상’과 유사하다. 또한 한 방문 동안 방문한 고유 서브페이지 수 z의 확률 P(z)∝e^{-λz} 로 지수적으로 감소하고, 전체 전이 횟수 n과의 평균 관계는 ⟨z⟩∼√n 형태를 보인다. 이는 사용자가 초기 탐색 후 점차 기존에 방문한 페이지를 재방문하는 경향이 강화된다는 것을 시사한다.
저자들은 이러한 현상을 ‘자기흡인 랜덤워크(self‑attracting walk)’ 모델로 재현한다. 초기 단계에서는 무작위 선택이 지배하지만, 방문한 노드에 가중치를 부여해 재방문 확률을 증가시키는 메커니즘을 도입한다. 모델은 실험 데이터의 멱법칙 지수와 ⟨z⟩–n 관계를 정량적으로 재현하지만, 페이지 간 의미적 연관성이나 사용자 개인차를 반영하지 못한다는 한계도 논의한다. 전체적으로, 포털 내 인간 행동이 복잡계 네트워크의 전형적인 스케일링 법칙을 따르며, 간단한 확률적 모델로도 주요 통계적 특징을 포착할 수 있음을 보여준다.