월드와이드웹 대규모 네트워크 상관 분석
초록
본 연구는 690만 개 도메인·5700만 개 서브도메인을 포함한 웹 전체를 크롤링하고, 각 노드의 인·아웃-degree, 지역 클러스터링 계수, 이웃 인-degree, Alexa 순위 등 구조적 지표 간 상관관계를 조사하였다. 방향성을 보존한 그래프에서 클러스터링 계수를 추정하고, 평균뿐 아니라 확률밀도 경계에서도 파워‑러프 법칙이 나타나며, 평균과 경계의 지수는 서로 다름을 확인했다. 특히 1천 개 이상의 외부 링크를 가진 사이트와 그렇지 않은 사이트가 통계적 특성에서 뚜렷이 구분되는 계층적 구조를 시사한다.
상세 분석
이 논문은 웹을 거대한 방향성 그래프로 모델링한 뒤, 전통적인 무작위 그래프 분석을 넘어 노드 수준의 구조적 특성 간 상관관계를 정량화한다. 먼저 인‑degree와 아웃‑degree의 분포가 전형적인 스케일‑프리 형태를 보이며, 평균값뿐 아니라 확률밀도 함수의 상위·하위 경계에서도 동일한 파워‑러프 형태가 유지된다는 점을 강조한다. 이는 단순 평균이 아닌 전체 분포의 꼬리까지도 동일한 자가‑유사성을 가진다는 의미이며, 웹 전체가 다중 스케일 구조를 갖는다는 강력한 증거다.
클러스터링 계수에 대한 새로운 통계적 추정법을 제시했는데, 이는 방향성 링크를 고려한 삼각형(서클) 개수를 기반으로 하여 기존 무방향 그래프용 정의와 차별화된다. 실험 결과, 높은 인‑degree를 가진 노드일수록 클러스터링 계수가 낮아지는 반비례 관계가 관찰되었으며, 이는 ‘핵심‑주변’ 구조가 뚜렷한 웹의 위계성을 반영한다.
또한 Alexa 순위와 인‑degree 사이의 상관관계를 분석했을 때, 순위가 높을수록(즉, 트래픽이 많을수록) 인‑degree가 급격히 증가하는 구간과 완만히 증가하는 구간이 명확히 구분된다. 특히 약 1천 개 이상의 외부 링크를 가진 사이트에서는 트래픽과 연결성 사이의 파워‑러프 지수가 크게 변동하며, 이는 ‘핵심’ 사이트와 ‘주변’ 사이트가 서로 다른 성장 메커니즘을 가짐을 시사한다.
전체 데이터셋을 6.9 백만 도메인·5,700만 서브도메인으로 확장함으로써, 이전 연구들이 제한된 샘플에 의존했던 점을 극복하고, 웹 전체의 구조적 특성을 보다 신뢰성 있게 포착했다. 결과적으로 웹은 단일 스케일의 무작위 네트워크가 아니라, 다중 스케일·다중 지수의 복합적인 위계 구조를 갖는 복합 시스템으로 이해해야 함을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기