BFS 샘플링 편향의 정량적 분석과 보정 방법

본 연구는 대규모 온라인 소셜 네트워크(OSN)와 같은 알려지지 않은 그래프를 측정할 때 널리 사용되는 BFS(폭넓이 우선 탐색)와 그 변형 기법들의 샘플링 편향을 정량적으로 분석한다. 기존에는 BFS가 고도 노드에 편향된다는 경험적 관찰만 있었으며, 정확한 수학적 모델링은 부재했다. 저자들은 이를 해결하기 위해 무작위 그래프 모델 RG(p_k) — 주어진 차수 분포 p_k 를 갖는 다중 그래프를 스텁 매칭 방식으로 생성하는 모델 — 를 가정하고, BFS가 탐색 과정에서 어떤 확률적 메커니즘으로 노드를 선택하는지를 수식화한다. 먼저 그래프 탐색을 “교체 있음(랜덤 워크)”과 “교체 없음(그래프 트래버설)”으로 구분한다. 교체 있음 방식인 랜덤 워크(RW)와 메트로폴리스‑해스팅스 랜덤 워크(MHRW)는 기존 연구에서 편향이 알려져 있으며, RW는 노드 차수 k 에 비례하는 확률 π_v = k_v/(2|E|) 로 정착한다. 따라서 관측 차수 분포는 q_k = k p_k / h_i 가 된다. MHRW는 메트로폴리스 수용률을 적용해 균등 샘플링을 구현한다. 교체 없음 방식인 BFS, DFS, Forest Fire(FF), Snowball Sampling(SBS)은 모두 “한 번 방문하면 재방문하지 않는다”는 공통 특성을 가진다. 논문은 BFS를 중심으로 분석을 전개하지만, 수학적 증명을 통해 이 네 가지 기법이 동일한 편향 함수를 공유함을 보인다. BFS는 초기 단계에서 아직 탐색되지 않은 이웃을 폭넓게 확장하므로, 아직 샘플에 포함되지 않은 고도 노드가 선택될 확률이 차수 k 에 비례한다. 이를 바탕으로 관측 차수 분포 q_k 와 평균 관측 차수 h*_i 를 다음과 같이 도출한다. - 관측 차수 분포: q_k(f) = (k p_k · h_i) ·

BFS 샘플링 편향의 정량적 분석과 보정 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기