혼합 멤버십 확률 블록모델

초록

관계 데이터를 측정한 관측값은 단백질 상호작용·유전자 조절 네트워크, 저자‑수신자 이메일 컬렉션, 사회적 네트워크 등 다양한 분야에서 나타난다. 이러한 데이터를 확률 모델로 분석하는 것은 많은 기존 모델이 전제하는 교환 가능성 가정이 더 이상 성립하지 않기 때문에 까다롭다. 본 논문에서는 혼합 멤버십 확률 블록모델(Mixed Membership Stochastic Blockmodel, MMSB)이라는 잠재 변수 모델을 제시한다. 이 모델은 전통적인 블록모델을 확장하여 객체마다 혼합된 멤버십을 갖는 잠재 관계 구조를 포착함으로써, 객체별 저차원 표현을 제공한다. 빠른 근사 사후 추론을 위해 일반적인 변분 추론 알고리즘을 개발하였다. 사회 네트워크와 단백질 상호작용 네트워크에 대한 적용 사례를 통해 모델의 효용성을 검증한다.

상세 요약

혼합 멤버십 확률 블록모델(MMSB)은 전통적인 블록모델이 갖는 “각 노드가 하나의 블록에만 속한다”는 강한 가정을 완화한다는 점에서 큰 의미를 가진다. 실제 네트워크에서는 하나의 개체가 여러 사회적 역할이나 기능을 동시에 수행하는 경우가 빈번하다. 예를 들어, 연구자는 동시에 여러 연구 그룹에 속하거나, 단백질은 여러 생물학적 경로에 참여한다. MMSB는 각 노드마다 K개의 잠재 블록에 대한 멤버십 벡터 θᵢ 를 도입하여, 노드 i가 블록 k에 속할 확률을 θᵢₖ로 표현한다. 관계(엣지) 생성 과정은 두 노드 i와 j가 각각 자신의 멤버십 분포에서 블록을 샘플링하고, 선택된 블록 쌍 (zᵢ→j, zⱼ←i) 에 따라 엣지 존재 확률을 결정하는 베르누이 과정으로 모델링된다. 이 구조는 블록 간 상호작용을 나타내는 K × K 매트릭스 B 를 통해 다양한 유형의 관계 패턴(동질성, 이질성, 계층적 구조 등)을 포착한다.

모델 추론은 고차원 잠재 변수와 복잡한 결합 구조 때문에 정확한 베이지안 사후분포를 계산하기 어렵다. 저자는 변분 베이즈(VB) 접근법을 채택하여, 실제 사후분포를 보다 tractable한 팩터화된 분포 q(θ, Z)로 근사한다. 구체적으로, 각 노드의 멤버십 분포는 디리클레(Dirichlet) 형태로, 각 엣지에 대한 블록 할당은 다항식(Categorical) 형태로 근사한다. 변분 파라미터는 증거 하한(ELBO)을 최대화하는 좌·우 교대 업데이트를 통해 반복적으로 갱신된다. 이 과정은 기존 EM 알고리즘과 유사하지만, 확률적 블록 할당을 명시적으로 다루어 보다 유연한 추정이 가능하다.

실험에서는 두 가지 실제 데이터셋을 대상으로 모델을 평가한다. 첫 번째는 사회적 네트워크(예: Zachary’s Karate Club)로, MMSB가 전통적인 SBM보다 노드의 다중 역할을 더 정확히 복원함을 보인다. 두 번째는 단백질-단백질 상호작용 네트워크로, 멤버십 벡터가 알려진 기능적 모듈과 높은 상관관계를 나타내어, 생물학적 해석 가능성을 제공한다. 또한, 변분 추론의 계산 복잡도는 O(N · K²) 수준으로, 대규모 네트워크에도 적용 가능함을 실증한다.

한계점으로는 K(블록 수)의 사전 선택이 모델 성능에 큰 영향을 미친다는 점과, 변분 근사가 로컬 최적에 머물 위험이 있다는 점을 들 수 있다. 향후 연구에서는 비모수적 베이즈 접근(예: 히어라키컬 디리클레 프로세스)으로 K를 자동 추정하거나, 스토캐스틱 변분 방법을 도입해 온라인 학습을 가능하게 하는 방향이 유망하다. 또한, 시간에 따라 변하는 동적 네트워크에 대한 확장이나, 엣지의 속성(가중치, 유형)까지 동시에 모델링하는 다중모달 버전도 탐구할 가치가 있다.

초록

상세 요약

📜 논문 원문 (영문)