동적 확률 블록모델 시간에 따라 변하는 네트워크 분석
본 논문은 정적 네트워크에 널리 사용되는 확률 블록모델(SBM)을 동적 상황에 적용하기 위해 상태공간 모델을 제안한다. 관측된 네트워크 스냅샷을 블록 밀도 형태로 변환하고, 로그오즈 변환된 블록 확률을 시간에 따라 랜덤 워크로 모델링한다. 확장 칼만 필터(EKF)와 로컬 힐클라이밍을 결합해 온라인으로 상태와 클래스 멤버십을 추정하며, Enron 이메일 네트워크에 적용해 시간에 따른 관계 변화를 성공적으로 포착한다.
저자: Kevin S. Xu, Alfred O. Hero III
본 논문은 정적 네트워크 분석에 널리 사용되는 확률 블록모델(stochastic blockmodel, SBM)을 동적 네트워크에 적용하기 위한 새로운 통계적 프레임워크를 제시한다. 기존 연구들은 주로 단일 시점 혹은 시간에 대한 집계된 네트워크를 대상으로 모델링했으며, 시간에 따라 변화하는 네트워크 구조를 포착하는 데 한계가 있었다. 저자들은 이러한 한계를 극복하고자, 네트워크 스냅샷을 시간‑인덱스된 그래프 시퀀스로 표현하고, 각 스냅샷을 정적 SBM으로 모델링한 뒤, 블록 간 연결 확률을 시간에 따라 변하는 숨은 상태(state)로 간주하는 상태공간 모델을 구축한다.
1. **정적 SBM 요약**
- 각 스냅샷 \(W_t\)는 \(k\)개의 클래스(또는 블록)로 나뉘며, 클래스 \(a\)와 \(b\) 사이의 엣지는 독립적인 베르누이 확률 \(\theta_{ab}^t\)를 따른다.
- 블록 밀도 \(y_{ab}^t = m_{ab}^t / n_{ab}^t\) (관측된 엣지 수 / 가능한 엣지 수)는 \(\theta_{ab}^t\)의 충분통계량이며, 최대우도 추정은 바로 이 블록 밀도이다.
2. **동적 상태공간 모델**
- 블록 확률 \(\theta_{ab}^t\)를 로그오즈 변환 \(\psi_{ab}^t = \log(\theta_{ab}^t / (1-\theta_{ab}^t))\) 로 바꾸어, \(\psi_t\)가 실수값을 갖도록 만든다.
- 시간적 진화는 단순 랜덤 워크 \(\psi_t = \psi_{t-1} + v_t\) 로 가정하고, 프로세스 노이즈 \(v_t\)는 공분산 \(\Gamma_t\)를 갖는 정규분포이다.
- 관측 모델은 비선형 함수 \(h(\psi_t) = 1/(1+e^{-\psi_t})\) 를 통해 \(\theta_t\)를 복원하고, 블록 밀도 \(y_t\)와 연결한다. 중앙극한정리를 이용해 \(y_t\)는 평균 \(\theta_t\), 분산 \(\sigma_{ab}^2 = \theta_{ab}^t(1-\theta_{ab}^t)/n_{ab}^t\) 를 갖는 정규분포로 근사한다.
3. **추정 방법**
- 비선형 관측을 다루기 위해 확장 칼만 필터(EKF)를 적용한다. EKF는 예측 단계에서 \(\hat\psi_{t|t-1} = \hat\psi_{t-1|t-1}\) 와 공분산 \(R_{t|t-1}=R_{t-1|t-1}+\Gamma_t\) 를 계산하고, 관측 단계에서 제이콥비안 \(J_t = \partial h / \partial \psi\) 를 이용해 선형화한다.
- EKF 업데이트는 칼만 이득 \(K_t\) 를 구하고, \(\hat\psi_{t|t} = \hat\psi_{t|t-1} + K_t (y_t - h(\hat\psi_{t|t-1}))\) 로 수행한다.
- 초기 상태 \(\psi_0\)와 공분산 \(\Gamma_0\)는 사전 지정하거나 경험적으로 설정한다.
4. **클래스 멤버십 추정(Posteriori 블록모델)**
- 클래스 라벨 \(c_t\)가 알려지지 않은 경우, 라벨 스위칭 기법을 사용한다. 로그 사후 확률 \(\log f(\psi_t|W_{1:t})\) 를 목표 함수로 삼아, 현재 상태 추정값을 고정하고 라벨을 힐클라이밍으로 최적화한다.
- 초기 라벨은 스펙트럴 클러스터링을 적용해 얻으며, 시간에 따라 라벨 변동이 적다는 가정 하에 이전 시점 라벨을 초기값으로 사용한다.
5. **실험: Enron 이메일 네트워크**
- 데이터는 1998~2002년 사이 184명의 직원 간 0.5백만 건의 이메일을 주간 단위로 집계한 것이다. 각 직원은 직책(CEO, 이사, 부사장 등) 혹은 “기타” 클래스로 라벨링한다.
- EKF를 이용해 시간에 따른 블록 확률 \(\hat\Theta_t\) 를 추정하고, 95% 신뢰구간을 함께 제시한다.
- 주요 관찰: CEO가 사임한 주(week 89)에는 CEO→다른 클래스 간 연결 확률이 급증하고, 대통령(프레지던트) 클래스 간 연결 확률은 재무 위기 전후로 점진적으로 증가한다. 이러한 동적 패턴은 정적 SBM에서는 포착되지 않는다.
- 또한, EKF와 지수 가중 이동 평균(EWMA) 기반 개별 엣지 예측기를 결합해 미래 링크를 예측했으며, 정적 방법 대비 예측 정확도가 향상되었다. EKF만 사용할 경우 블록 밀도 예측에 강점이 있지만 개별 엣지 수준에서는 부족하므로, EWMA와의 혼합이 실용적이다.
6. **의의와 한계**
- 시간에 따라 변하는 블록 확률을 상태로 모델링함으로써, 네트워크 내부의 구조적 변화를 정량적으로 추적할 수 있다. 이는 조직 내 권력 구조 변화, 사건 발생 전후의 커뮤니케이션 패턴 등 실질적인 사회·경제 현상을 해석하는 데 유용하다.
- 모델은 랜덤 워크 가정과 정규 근사에 의존하므로, 급격한 변동이나 비정규적인 노이즈가 존재할 경우 성능이 저하될 수 있다. 또한, 라벨 스위칭은 힐클라이밍에 의존하므로 전역 최적을 보장하지 않는다. 향후 연구에서는 보다 복잡한 상태 전이 모델(예: ARMA, 비선형 동역학)과 변분 베이지안 추정 등을 도입할 여지가 있다.
종합적으로, 본 논문은 동적 네트워크 분석에 있어 확률 블록모델을 상태공간 프레임워크와 결합한 새로운 방법론을 제시하고, 실제 대규모 기업 커뮤니케이션 데이터에 적용해 의미 있는 동적 패턴을 밝혀냈다. 이는 동적 사회 네트워크, 생물학적 상호작용망, 금융 거래망 등 다양한 분야에서 시간에 따른 구조 변화를 모델링하고 예측하는 데 활용될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기