생일 역설을 활용한 초저용량 스트리밍 삼각형 카운팅

초록

본 논문은 그래프를 엣지 스트림 형태로 한 번만 읽으면서 전역 클러스터링 계수(전이율)와 전체 삼각형 개수를 근사하는 공간 효율적인 스트리밍 알고리즘을 제안한다. 고전적인 생일 역설을 이용해 무작위로 선택된 정점 쌍이 같은 정점을 공유할 확률을 추정함으로써, 전이율이 상수이고 엣지 수가 웨지 수보다 많을 때 O(√n) 메모리만으로 정확한 추정이 가능함을 증명한다. 실험 결과 2억 개 이상의 엣지를 가진 대규모 그래프에서도 6만 개 정도의 엣지만 저장하면 높은 정확도를 유지한다는 점을 보여준다.

상세 분석

이 논문은 스트리밍 환경에서 삼각형 개수를 추정하는 기존 방법들의 한계를 극복하기 위해 ‘생일 역설’이라는 확률론적 아이디어를 도입한다. 생일 역설은 n개의 사람 중 두 사람이 같은 생일을 가질 확률이 약 ½가 되기 위해 필요한 사람 수가 √(365) 정도라는 사실을 이용한다. 이를 그래프에 적용하면, 무작위로 선택된 정점 쌍(‘웨지’) 중 두 개가 동일한 정점을 공유할 확률이 전체 정점 수 n에 대해 O(1/√n)임을 이용해, 작은 샘플 집합만으로 전체 웨지 집합의 충돌 빈도를 추정할 수 있다.

알고리즘은 두 단계로 구성된다. 첫 번째 단계에서는 스트림에서 임의의 엣지를 ‘레지버oir 샘플링’ 기법으로 일정 비율(≈s)만 저장한다. 여기서 s는 O(√n) 수준으로 설정된다. 두 번째 단계에서는 저장된 엣지 집합을 이용해 모든 가능한 ‘웨지’를 생성하고, 이 웨지들 중 실제 그래프에 존재하는 삼각형을 형성하는 경우를 카운트한다. 저장된 엣지 수가 충분히 작아도, 전체 웨지 수 대비 충돌(두 웨지가 같은 중심 정점을 공유) 확률이 √n에 반비례하기 때문에, 충돌 횟수를 통해 전체 삼각형 수와 전이율을 편향이 거의 없는 추정값으로 복원한다.

이론적 분석에서는 전이율(τ)이 상수이고, 전체 엣지 수 m이 웨지 수 w보다 클 때(즉, m ≫ w) 샘플링된 엣지 집합이 전체 그래프의 구조를 충분히 대표한다는 가정을 바탕으로, 편향(bias)과 분산(var)의 상한을 각각 O(1/√n)과 O(1/n) 수준으로 제한한다. 따라서 기대값이 실제 값에 가까워지고, 표본 크기 s가 √n이면 상대 오차가 ε 이하가 되도록 s = Θ(√n/ε²) 로 설정할 수 있다.

실험에서는 SNAP, KONECT, 그리고 실시간 소셜 네트워크 로그 등 다양한 실제 그래프를 대상으로 알고리즘을 평가하였다. 메모리 사용량은 전체 엣지 수 대비 0.03% 이하로 유지되었으며, 전이율과 삼각형 개수에 대한 평균 상대 오차는 2% 미만이었다. 또한, 동일 메모리 제한 하에서 기존의 wedge‑sampling 기반 스트리밍 방법이나 그래프 스케치 기법보다 훨씬 높은 정확도를 보였다. 실시간 추정 능력도 검증했는데, 스트림이 진행됨에 따라 추정값이 빠르게 수렴하고, 급격한 구조 변화(예: 커뮤니티 합병)에도 즉시 반응한다는 점이 강조된다.

이 알고리즘의 주요 강점은 (1) 단일 패스만 필요하므로 스트리밍 환경에 적합하고, (2) 메모리 요구량이 정점 수의 제곱근 수준으로 매우 작아 대규모 그래프에서도 실용적이며, (3) 생일 역설이라는 직관적인 확률 모델을 활용해 복잡한 수학적 추정 없이도 정확한 결과를 얻을 수 있다는 점이다. 한계점으로는 전이율이 매우 낮은 희소 그래프에서는 충돌 확률이 급격히 감소해 샘플 크기가 커져야 한다는 점과, 레지버oir 샘플링 자체가 엣지 순서에 민감해 스트림 순서가 편향될 경우 추정 정확도가 떨어질 가능성이 있다는 점을 들 수 있다. 향후 연구에서는 이러한 경우를 보완하기 위한 가중 샘플링 기법이나, 다중 스트림 병합 시의 오류 전파 분석이 제안될 수 있다.