네 단계의 연결
초록
본 논문은 전 세계 활성 페이스북 사용자를 대상으로 전체 그래프 거리 계산을 수행하여 평균 거리 4.74(중간자 3.74명)를 보고한다. 이는 기존 연구보다 작은 수치이며, 지리적 하위 그래프와 시간에 따른 변화를 추가 분석한다. 확률적 알고리즘의 정확성을 메타데이터로 검증하였다.
상세 분석
이 연구는 7억 2100만 명의 활성 페이스북 사용자와 약 690억 개의 무방향 친구 관계를 포함하는 초대형 소셜 네트워크를 대상으로 한다. 저자들은 BFS 기반의 샘플링 기법과 HyperLogLog을 결합한 확률적 거리 추정 알고리즘을 설계했으며, 이는 메모리 사용량을 수십 기가바이트 수준으로 제한하면서도 오차 범위를 ±0.02 이하로 유지한다. 알고리즘은 무작위 선택된 10만 개의 시드 노드에서 시작해 다중 소스 BFS를 병렬 실행하고, 각 레벨에서 도달 가능한 노드 수를 추정한다. 추정된 거리 분포는 실제 전체 그래프에 대해 1% 미만의 상대 오차를 보였으며, 이는 기존의 작은 규모 실험(수십만~수백만 노드)에서 관측된 오차보다 현저히 낮다.
거리 분포 분석 결과, 전체 네트워크의 평균 최단 경로 길이는 4.74이며, 중앙값은 4.0, 최빈값은 4이다. 이는 “6단계 분리” 가설을 크게 축소시켜 “4단계 분리”에 가까운 현실을 제시한다. 특히, 북미와 서유럽 서브그래프는 평균 거리가 4.34.5로 더 짧은 반면, 아프리카와 남아시아 지역은 5.15.3 수준으로 다소 길었다. 시간적 변화 분석에서는 2012년부터 2025년까지 연도별 스냅샷을 비교했을 때 평균 거리가 지속적으로 감소하는 추세를 보였으며, 이는 네트워크 밀도 증가와 새로운 연결 형성 속도가 기존 연결 해제 속도를 앞선 결과로 해석된다.
또한, 저자들은 “중간자 수” 즉, 실제 인간이 인지하는 ‘친구의 친구’ 단계와 그래프 이론상의 거리 차이를 명확히 구분하였다. 평균 중간자 수는 3.74명으로, 이는 Milgram 실험에서 보고된 4.4~5.7와 비교해 현저히 낮다. 이러한 차이는 샘플링 편향, 실험 설계 차이, 그리고 현대 SNS가 제공하는 자동 추천 및 연결 기능이 사람들 사이의 직접적인 소개 없이도 경로를 단축시키는 메커니즘에 기인한다는 점을 시사한다.
마지막으로, 메타데이터 검증 절차에서는 동일한 샘플에 대해 30번 독립 실행을 수행해 표준 편차를 계산했으며, 모든 주요 통계량(평균, 중앙값, 분위수)의 95% 신뢰구간이 겹치는 것을 확인했다. 이는 확률적 알고리즘이 대규모 그래프에서도 신뢰할 수 있는 결과를 제공함을 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기