클래스 수가 증가하는 확률 블록모델의 수렴 특성
초록
본 논문은 네트워크의 정점 수가 커짐에 따라 클래스(커뮤니티) 수를 √N 수준까지 늘려도 최대우도 추정이 거의 완벽하게 정렬된다는 점을 보인다. 평균 차수가 로그 다항식 이상이면 오분류 비율이 확률적으로 0에 수렴한다. 또한 독립 베르누이 관측에 대한 최대우도 파라미터 추정의 유한표본 신뢰구간을 클래스 할당 전반에 걸쳐 균등하게 제공한다. 시뮬레이션과 페이스북 프로필 네트워크 실험을 통해 이론적 조건을 검증하고, 공변량을 포함한 로짓 형태 블록모델이 잔여 구조를 드러냄을 보여준다.
상세 분석
이 연구는 확률 블록모델(stochastic blockmodel, SBM)의 확장성을 두 축에서 정량화한다. 첫 번째 축은 클래스 수 K의 성장률이며, 저자는 K를 네트워크 정점 수 N의 제곱근 수준까지 허용한다. 이는 기존 문헌이 고정된 K 혹은 K가 로그 수준에 머무는 경우와는 크게 다른 설정이다. 두 번째 축은 평균 차수 d̄의 성장속도이다. 논문은 d̄이 (log N)^c 형태, 즉 다항 로그 수준으로 증가하면 충분하다고 가정한다. 이러한 가정 하에 최대우도(MLE) 추정은 정점들의 클래스 할당을 거의 완벽히 복원한다는 강력한 일관성 결과를 증명한다. 구체적으로, 오분류된 정점 비율 𝜖_N은 𝜖_N → 0 in probability 로 수렴한다. 증명은 크게 두 단계로 구성된다. 첫째, 로그가능도와 실제 로그가능도 사이의 차이를 제어하기 위해 베르누이 관측에 대한 균등 수렴 경계를 도출한다. 여기서 사용된 핵심 도구는 마코프 부등식과 체인법을 결합한 고차원 대수적 편차(bound)이다. 둘째, 이러한 편차가 K와 N 사이의 관계식 K = o(N^{1/2})를 만족할 때 충분히 작아져서, MLE가 진정한 파라미터와 거의 동일한 로그가능도를 갖는 클래스 할당을 선택하게 된다.
또한 논문은 파라미터 추정에 대한 유한표본 신뢰구간을 제공한다. 독립 베르누이 변수들의 집합을 관측값으로 삼아, 각 블록 간 연결 확률 p_{ab}에 대해 최대우도 추정 \hat p_{ab}가 실제 p_{ab}와의 차이가 \sqrt{(log N)/n_{ab}} 수준으로 제한된다는 구체적 경계를 제시한다. 여기서 n_{ab}는 클래스 a와 b 사이의 가능한 엣지 수이다. 중요한 점은 이 경계가 클래스 할당 z에 무관하게 동일하게 적용된다는 점이다. 따라서 모델 선택 단계에서 발생할 수 있는 과적합 위험을 이론적으로 억제한다.
시뮬레이션에서는 N = 10^3~10^5 범위의 그래프를 생성하고, K = ⌊N^{0.5}⌋까지 변동시켜 오분류 비율을 측정한다. 평균 차수를 d̄ = (log N)^2 정도로 설정했을 때, 오분류 비율이 0.01 이하로 급격히 감소함을 확인한다. 반면 d̄이 로그 수준에 못 미치면 오분류가 지속적으로 높게 유지되어 가정의 필요성을 실증한다.
실제 데이터 적용에서는 페이스북 사용자 프로필 네트워크를 사용한다. 각 정점은 사용자이며, 엣지는 친구 관계를 나타낸다. 추가적으로 연령, 성별, 교육 수준 등 공변량을 로짓 형태의 블록모델에 포함시켜, 기본 SBM이 설명하지 못하는 잔여 구조를 포착한다. 결과적으로, 동일한 공변량을 가진 사용자들 사이의 연결 확률이 크게 차이나는 몇 개의 블록이 식별되었으며, 이는 사회적 동질성 외에 숨겨진 커뮤니티가 존재함을 시사한다.
전반적으로 이 논문은 K가 √N 수준까지 성장해도 MLE 기반 SBM이 일관성을 유지한다는 새로운 이론적 토대를 제공한다. 또한 유한표본 신뢰구간을 통해 실무 적용 시 파라미터 추정의 정확성을 정량화할 수 있게 함으로써, 대규모 네트워크 분석에 실용적인 가이드라인을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기