무작위 샘플로부터 대규모 네트워크와 커뮤니티 규모 추정

본 논문은 “무작위 샘플로부터 대규모 네트워크와 커뮤니티 규모 추정”이라는 문제를 다루며, 특히 확률적 블록 모델(SBM)이라는 통계적 그래프 생성 모델을 전제로 한다. SBM은 K개의 블록(또는 커뮤니티)으로 구성된 정점 집합 V와, 블록 i와 j 사이에 정점 쌍이 연결될 확률 p_{ij}를 정의한다. 이러한 모델은 실제 소셜 네트워크, 웹 페이지, 인터넷 라우터 등 다양한 실세계 네트워크가 보이는 커뮤니티 구조를 수학적으로 포착한다. 연구자는 전체 정점 수 N=|V|와 각 블록의 정점 수 N_i (i=1,…,K)를 직접 관측하기 어려운 상황을 가정한다. 대신, 전체 정점 집합에서 균등 무작위로 n개의 정점 W를 선택하고, 그에 대한 유도 서브그래프 G(W)와 각 샘플 정점 v∈W의 전체 차수 d(v) 및 블록 레이블 t(v)를 관측한다. 여기서 중요한 점은 d(v)에서 샘플 내부에 존재하는 이웃을 제외한 ‘펜던트 차수’ ˜d(v) 를 계산할 수 있다는 것이다. ˜d(v)는 v가 샘플 외부에 있는 정점들과 맺고 있는 에지 수를 의미하지만, 그 대상 정점들의 블록은 알 수 없다. 이러한 불완전 정보를 활용하기 위해 저자들은 베이지안 추정 프레임워크를 설계한다. 우선 각 블록 간 연결 확률 p_{ij}에 독립적인 베타 사전 B(α_{ij},β_{ij})를 부여하고, 외부 정점 수 ˜N_i=N_i−|W∩V_i|에 대해서는 일반적인 비음이 아닌 사전 φ(˜N) (예: 균등 혹은 지수형)를 설정한다. 관측 데이터 D=(G(W),{d(v)}, {t(v)})에 대한 전체 우도는 두 부분으로 나뉜다. 1. **내부 에지 우도 L_W**: 샘플 W 내부에서 관측된 에지 수 E_{ij}는 이항 분포를 따르며, L_W는 ∏_{i≤j} p_{ij}^{E_{ij}}(1−p_{ij})^{V_i V_j−E_{ij}} 형태이다. 2. **펜던트 에지 우도 L_{¬W}**: 각 정점 v에 대해 외부 정점 중 블록 i와 연결된 수 y_i(v) 를 정의한다. y_i(v)는 정수이며 Σ_i y_i(v)=˜d(v) 를 만족한다. 주어진 ˜N_i와 p_{ij} 하에서 y_i(v)는 다항형(다중 이항) 분포를 따른다. 따라서 L_{¬W}=∏_{v∈W}

무작위 샘플로부터 대규모 네트워크와 커뮤니티 규모 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기