포아송 스토캐스틱 크로네커 그래프와 정점 중심 병렬 처리
초록
본 논문은 기존 스토캐스틱 크로네커 그래프(SKG)의 생성 방식을 포아송 분포 기반으로 변형한 포아송 스토캐스틱 크로네커 그래프(PSKG)를 제안한다. PSKG는 정점 중심 BSP(예: Pregel) 환경에서 통신 없이 완전 병렬화가 가능하도록 설계되었으며, SKG가 보유한 그래프 구조적 특성(스케일‑프리, 작은 직경, 커뮤니티 구조 등)을 그대로 유지한다.
상세 분석
SKG는 행렬 크로네커 곱을 이용해 확률 행렬을 정의하고, 이를 기반으로 에지를 샘플링하는 방식이다. 그러나 정점 중심 BSP에서는 각 정점이 독립적으로 작업을 수행하므로, 전통적인 SKG는 에지 샘플링 단계에서 전역 확률 행렬에 대한 접근이 필요하고, 이는 노드 간 통신을 강제한다. 저자들은 이 병목을 해소하기 위해 에지 수를 포아송 분포로 모델링한다. 구체적으로, 각 정점 i에 대해 기대값 λ_i = Σ_j P_{ij} (P는 SKG의 확률 행렬) 를 계산하고, λ_i 를 파라미터로 하는 포아송(λ_i) 변수를 샘플링해 해당 정점이 생성할 에지 수를 결정한다. 포아송 샘플링은 독립적이며, 각 정점이 자체적으로 수행할 수 있기 때문에 BSP 모델의 “무통신” 원칙에 완벽히 부합한다.
수학적으로, 포아송 분포는 큰 n, 작은 p, np = λ인 이항분포의 극한 형태이므로, 기존 SKG가 에지를 이항분포로 샘플링하던 과정을 근사적으로 대체한다. 이때 평균 에지 수는 원래 SKG와 동일하게 유지되며, 분산도 λ에 비례해 자연스럽게 조절된다. 저자들은 실험을 통해 λ가 충분히 큰 경우(예: λ≥10) 두 모델 간 통계적 차이가 미미함을 확인하였다.
PSKG의 또 다른 핵심은 “정점 중심 파티셔닝”이다. 정점 집합을 균등하게 파티션하고, 각 파티션에 할당된 워커는 자신이 담당하는 정점들의 λ_i 를 사전 계산한다. 이후 워커는 로컬 RNG를 이용해 포아송 샘플을 생성하고, 생성된 에지를 목표 정점으로 라우팅한다. 라우팅 단계는 BSP의 메시지 전달 메커니즘을 그대로 이용하므로 추가적인 구현 복잡도가 없으며, 네트워크 트래픽도 에지 수에 비례하는 최소 수준으로 제한된다.
성능 평가에서는 기존 SKG를 직렬 혹은 “에지 중심” 병렬화(통신 비용이 큰 방식)와 비교했을 때, PSKG는 워커 수가 증가함에 따라 거의 선형적인 스케일업을 보였다. 특히 대규모 그래프(10^9 정점, 10^10 에지) 생성 시 메모리 사용량이 정점당 O(1) 수준으로 유지돼, 클라우드 환경에서의 비용 효율성이 크게 향상되었다.
마지막으로, PSKG가 유지하는 구조적 특성에 대한 분석도 제공한다. 그래프의 차수 분포, 클러스터링 계수, 스펙트럼 특성 등 주요 메트릭이 원본 SKG와 통계적으로 유사함을 확인했으며, 이는 포아송 근사가 그래프 전반의 확률 구조를 크게 왜곡하지 않음을 의미한다. 따라서 PSKG는 SKG의 이론적 장점을 보존하면서, 실용적인 병렬 구현을 가능하게 하는 실용적 모델이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기