가중 확률 블록 모델에서 정확 복구를 좌우하는 레니 다이버전스 한계

1. 서론 및 연구 동기 최근 네트워크 데이터가 풍부해짐에 따라, 단순히 존재 여부만을 이용한 무가중 확률 블록 모델(SBM)보다 엣지의 강도·유형·빈도 등을 포함하는 가중 확률 블록 모델(Weighted SBM, WSBM)의 필요성이 대두되었다. 기존 연구는 무가중 경우에 정확 복구(Exact Recovery)와 약한 복구(Weak Recovery)의 임계조건을 정보이론적 관점에서 분석했으며, 특히 두 커뮤니티가 거의 동등한 크기를 가질 때 √a‑√b>1이라는 식이 정확 복구 가능성을 결정한다는 결과가 알려져 있다. 그러나 가중 엣지를 고려하면, 내부·외부 가중치 분포가 복잡해져 기존의 확률 차이만으로는 충분히 설명되지 않는다. 본 논문은 이러한 공백을 메우기 위해, 가중 엣지 분포 사이의 레니 다이버전스(Rényi divergence)라는 일반적인 거리 척도를 도입한다. 2. 모델 정의 - K≥2개의 커뮤니티, 각 커뮤니티에 n개의 노드가 존재한다(총 N=Kn). - 각 노드 i의 커뮤니티 라벨 σ(i)∈{1,…,K}. - 엣지 (i,j)의 가중치 W(i,j)∈L(이산) 혹은 ℝ(연속)이며, σ(i)=σ(j)이면 분포 p_n, σ(i)≠σ(j)이면 분포 q_n을 따른다. - 모든 엣지는 독립적으로 샘플링된다. - 목표는 관측된 가중치 행렬 W만을 이용해 σ를 정확히 복구하는 것이다. 3. 최대우도 추정기와 그래프 컷 해석 ML 추정기는 로그우도 차이를 최소화하는 그래프 컷 문제와 동치이다. 이산 가중치 ℓ에 대해 가중치를 log(p_n(ℓ)/q_n(ℓ))로 변환하면, “between‑community” 엣지의 총 가중치를 최소화하는 파티션이 ML 해가 된다. 이는 기존 무가중 SBM에서 최소 컷(min‑cut)과 동일한 구조를 갖지만, 가중치가 확률 비율에 의해 결정된다는 점이 차별점이다. 4. 레니 다이버전스와 실패 확률 상한 (Theorem 3.1) 두 분포 p_n, q_n 사이의 레니 다이버전스 I_{½}를 I = −2 log ∑_ℓ √{p_n(ℓ) q_n(ℓ)} (이산) 혹은 I = −2 log ∫ √{p_n(x) q_n(x)} dx (연속) 로 정의한다. Theorem 3.1은 K=2인 경우, ML 추정기의 실패 확률 P(F)를 P(F) ≤ Σ_{k=1}^{⌊n/2⌋} exp

가중 확률 블록 모델에서 정확 복구를 좌우하는 레니 다이버전스 한계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기