네트워크 샘플링 기법의 실증 비교
초록
본 논문은 무작위 선택 방식과 네트워크 탐색 방식의 8가지 샘플링 기법을 실제 대규모 그래프 10개에 적용해, 서브그래프 유도(Induction) 여부에 따른 정도 분포, 클러스터링 분포, 평균 차수 및 밀도 변화를 정량적으로 평가한다. 서브그래프 유도 기법은 차수와 클러스터링 분포를 낮게 추정하지만 평균 차수와 밀도는 과대평가한다. 반대로 유도 없이 샘플링하면 차수·클러스터링은 과대평가하고 평균 차수·밀도는 과소평가한다. 무작위 선택과 탐색 기반 기법 간 차이는 크지 않으며, 유도 여부가 성능을 좌우한다는 것이 주요 결론이다.
상세 분석
이 연구는 네트워크 샘플링을 두 큰 범주, 즉 ‘무작위 선택(Random Selection)’과 ‘네트워크 탐색(Network Exploration)’으로 구분하고, 각각에서 서브그래프 유도(Subgraph Induction)를 적용한 버전과 적용하지 않은 버전을 모두 실험한다. 무작위 선택에서는 RNS(무작위 노드 선택), RND(노드 선택·도수 가중), RLS(무작위 링크 선택), RLI(링크 선택·유도) 네 가지를, 탐색 기반에서는 RWS(랜덤 워크), RWI(랜덤 워크·유도), FFS(포레스트 파이어), FFI(포레스트 파이어·유도) 네 가지를 사용한다.
샘플링 비율은 원본 그래프의 15%로 고정했으며, 각 기법마다 100번의 독립 실행을 통해 통계적 신뢰성을 확보하였다. 평가 지표는 (1) 차수 분포, (2) 클러스터링 계수 분포, (3) 평균 차수, (4) 그래프 밀도이며, 전자는 Kolmogorov‑Smirnov D‑통계량을, 후자는 평균값 차이와 Student‑t 검정을 이용해 원본과의 일치도를 정량화했다.
결과적으로 서브그래프 유도 기법(RLI, RWI, FFI 등)은 샘플에 포함된 노드들의 연결성을 인위적으로 증가시켜 평균 차수와 밀도를 원본보다 크게 만든다. 이는 유도 과정에서 선택된 링크들의 양쪽 끝 노드 사이에 존재하는 모든 추가 링크를 포함하기 때문이며, 차수와 클러스터링 분포는 실제보다 낮게(under‑estimate) 나타난다. 반면, 유도 없이 샘플링한 RLS, RWS, FFS 등은 선택된 부분 그래프가 원본의 구조적 다양성을 충분히 반영하지 못해 차수와 클러스터링을 과대평가(over‑estimate)하고, 평균 차수와 밀도는 원본보다 낮게 측정된다.
흥미로운 점은 무작위 선택 계열과 탐색 기반 계열 간의 전반적인 성능 차이가 크지 않다는 것이다. 예를 들어, RNS와 RND는 연결성이 떨어지는 샘플을 만들지만 차수 분포 일치도에서는 탐색 기반인 RWS와 비슷한 수준을 보였다. 이는 차수 분포 매칭에 있어 샘플의 연결성 자체가 결정적인 요인이 아니라, 선택된 노드·링크의 대표성에 더 큰 영향을 받는다는 점을 시사한다.
또한, FFS는 가장 낮은 정확도를 보였는데, 이는 포레스트 파이어가 샘플링 과정에서 낮은 차수의 노드를 과도하게 포함하고, 고차원 구조를 충분히 탐색하지 못하기 때문이다. 반면, RWS와 FFI는 각각 탐색 기반과 유도 기반의 장점을 결합해 차수·클러스터링 모두에서 비교적 균형 잡힌 결과를 제공한다.
통계적 검증 결과, 서브그래프 유도 여부가 차수·클러스터링 분포와 평균 차수·밀도에 미치는 영향은 95% 신뢰수준에서 유의미했으며, 이는 실무에서 샘플링 목적에 따라 유도 여부를 선택해야 함을 의미한다. 예를 들어, 네트워크 전반의 밀도 추정이 중요한 경우 유도 기법이 유리하지만, 지역적 클러스터링 구조를 보존하고 싶을 때는 유도 없이 샘플링하는 것이 바람직하다.
댓글 및 학술 토론
Loading comments...
의견 남기기