블록 제약 구성 모델의 분석적 공식화
초록
본 논문은 일반화된 초기하분포(gHypEG) 프레임워크 위에 블록 제약을 추가한 새로운 확률 그래프 모델인 블록‑제약 구성 모델(BCCM)을 제안한다. BCCM은 기존 구성 모델의 이질적인 차수 분포를 그대로 유지하면서, 블록(커뮤니티) 구조를 명시적으로 제어한다. 폐쇄형 확률식과 다변량 비중심 초기하분포를 이용해 모델의 likelihood를 정확히 계산할 수 있어 대규모 네트워크에도 효율적으로 적용 가능하며, AIC·BIC 기반의 모델 선택이 가능하다.
상세 분석
이 논문은 네트워크 과학에서 두 가지 핵심 요구—이질적인 차수 분포와 명확한 블록 구조—를 동시에 만족시키는 모델링 프레임워크를 제시한다. 기존의 확률적 블록 모델(SBM)은 블록 간 연결 확률만을 파라미터화하지만, 차수 분포를 균일하게 만든다는 한계가 있다. 반면, 구성 모델(CM)은 차수 시퀀스를 정확히 보존하지만 블록 구조를 반영하지 못한다. 저자는 이를 해소하기 위해 일반화된 초기하분포(gHypEG)를 기반으로, 두 개의 행렬 Ξ와 Ω를 도입한다. Ξ는 각 정점 쌍(i,j)의 가능한 스텁 조합 k_out_i·k_in_j 을 나타내어 구성 모델의 combinatorial 부분을 담당하고, Ω는 차수와 무관하게 특정 정점 쌍이 연결될 선호도를 부여한다. 블록‑제약 구성 모델(BCCM)은 Ω를 블록 구조에 맞게 제한함으로써, 블록 내부와 블록 간의 연결 선호도를 ω_{b_i b_j}라는 파라미터 집합으로 요약한다. 이때 ω_{b_i b_j}는 동일 블록 내에서는 ω_{b_i}로, 서로 다른 블록 간에는 ω_{b_i b_j}로 정의되어, SBM의 블록 매트릭스와 동일한 형태를 갖지만 차수 보정이 이미 Ξ에 내재되어 있다.
확률분포는 다변량 Wallenius 비중심 초기하분포로 정확히 기술되며, 식 (1)·(3)에서 보듯이 그래프 G의 발생 확률은 Ξ와 ω 파라미터들의 곱으로 표현된다. 대규모 네트워크에서는 무작위 추출을 교체 추출로 근사해 다항분포 형태로 변환할 수 있어, 로그우도 계산이 O(n^2) 수준으로 효율적이다. 이러한 폐쇄형 형태는 AIC와 BIC와 같은 정보 기준을 직접 적용할 수 있게 하며, 파라미터 수는 블록 수 B에 비례하는 ω_{b_i b_j}의 개수뿐이므로 과적합 위험이 낮다.
모델 추정 과정은 두 단계로 구성된다. 첫째, 관측 그래프에서 각 정점의 입·출 차수를 추정해 Ξ를 구성한다. 둘째, 블록 할당이 주어졌을 때, 기대 차수와 실제 차수 사이의 차이를 최소화하도록 ω 파라미터를 최적화한다. 저자는 이 과정을 최대우도 추정으로 구현하고, 블록 할당 자체는 기존 커뮤니티 탐지 알고리즘(예: Louvain)이나 사전 지식에 의존할 수 있음을 언급한다. 또한, BCCM은 샘플링 단계에서 BiasedUrn 라이브러리를 이용해 직접 그래프를 생성할 수 있으며, 예시로 5개의 블록이 링 형태로 연결된 구조와 다양한 차수 분포(균등, 파워‑law, 지수)를 결합한 실험을 제시한다. 실험 결과, 동일한 블록 매트릭스라도 차수 분포에 따라 그래프의 전반적 밀도와 클러스터링 특성이 크게 변함을 보여, 차수 보정이 블록 구조 해석에 미치는 중요성을 강조한다.
전반적으로 BCCM은 구성 모델의 차수 보정 능력과 SBM의 블록 제어 능력을 하나의 통합된 확률 모델로 결합한다. 폐쇄형 확률식, 효율적인 추정 및 샘플링, 그리고 정보 기준 기반 모델 선택 가능성은 네트워크 과학·사회과학·생물학 등 다양한 분야에서 복잡한 실세계 네트워크를 보다 현실적으로 모델링하고, 가설 검증에 활용할 수 있는 강력한 도구가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기