동적 소셜 네트워크를 위한 순차적 몬테카를로 기반 혼합 멤버십 블록모델 추론
본 논문은 혼합 멤버십 스토캐스틱 블록모델(MMSB)의 온라인 추론을 위해 순차적 몬테카를로(Particle Filter)와 증분 Gibbs 샘플러를 제안한다. 시간 의존성을 반영한 시간‑종속 파티클 필터를 설계하여 진화하는 네트워크 구조를 효과적으로 추적하고, Enron 이메일 데이터셋 실험을 통해 기존 배치 Gibbs 샘플러 대비 예측 정확도와 연산 효율에서 우수함을 입증한다.
저자: Tomoki Kobayashi, Koji Eguchi
본 연구는 동적 소셜 네트워크에서 잠재 구조를 파악하고 미래 링크를 예측하기 위해, 혼합 멤버십 스토캐스틱 블록모델(MMSB)의 온라인 추론 기법을 개발하였다. MMSB는 각 노드가 K개의 잠재 그룹에 대한 혼합 비율 π를 가지고, 노드 쌍 (p,q) 사이의 링크는 발신자와 수신자의 잠재 그룹 z_{p→q}, z_{p←q}에 따라 베르누이 파라미터 B_{gh}로부터 생성된다. 기존의 배치 추론은 전체 네트워크를 한 번에 관측하고, collapsed Gibbs 샘플링이나 변분 베이지안 방법으로 사후분포를 추정한다. 이러한 방식은 네트워크가 지속적으로 성장하거나 변할 때 매번 전체 데이터를 다시 처리해야 하므로 계산 비용이 급증한다.
이를 해결하고자 저자들은 두 가지 온라인 추론 알고리즘을 제안한다. 첫 번째는 증분 Gibbs 샘플러이다. 초기 구간을 배치 Gibbs(S=100)로 초기화한 뒤, 새로운 링크가 관측될 때마다 해당 링크에 대한 발신·수신 그룹을 현재 사후조건에 따라 샘플링한다. 또한, 재활성화(rejuvenation) 단계에서 기존에 관측된 노드 쌍 중 무작위로 선택된 |R(p,q)|개의 쌍을 다시 샘플링함으로써 사후분포를 최신 상태로 유지한다. |R|를 크게 잡을수록 정확도는 향상되지만, 연산 복잡도는 O(|R|·N)으로 증가한다.
두 번째는 파티클 필터(Sequential Monte Carlo) 기반 방법이다. P개의 파티클이 각각 독립적인 MMSM 파라미터와 잠재 변수 샘플을 보유한다. 새 링크가 들어오면 각 파티클의 가중치를 관측된 링크 확률에 비례하도록 업데이트하고, 가중치 분산이 사전에 정의된 ESS(Effective Sample Size) 임계값 이하가 되면 다중항 재샘플링을 수행한다. 파티클 내부에서도 증분 Gibbs와 재활성화 과정을 동일하게 적용한다. 파티클 수를 늘리면 근사 정확도가 향상되지만 메모리 사용량이 증가한다.
시간 의존성을 반영하기 위해 “시간‑종속 파티클 필터”를 설계하였다. 매 시간 단계 t에서 관측 가능도 L_t를 계산하고, 연속된 두 단계의 비율 λ_t = L_t / L_{t‑1}가 사전 설정된 임계값 λ₀보다 작으면 과거 관측을 부분적으로 버린다. 구체적으로 λ_i…λ_t의 벡터 Λ_{i,t}를 구성하고, 이를 다항분포의 파라미터로 하여 버릴 구간 τ를 샘플링한다. 선택된 τ 이전의 링크는 인접 행렬을 0으로 초기화하고, 해당 노드 쌍에 대해 새로운 잠재 그룹을 무작위 할당한다. 파티클마다 Λ_{i,t}가 다르게 계산되므로, 각 파티클이 독립적으로 과거 데이터를 버릴지 여부를 결정한다. 이는 네트워크 구조가 급격히 변하는 상황에서 최신 정보에 더 큰 비중을 두어 예측 성능을 높인다.
실험은 235노드, 28개월에 걸친 Enron 이메일 교류 데이터를 사용하였다. 데이터를 5‑폴드 교차 검증으로 나누어, 각 폴드에서 첫 구간을 배치 Gibbs(S=100)로 초기화하고 이후 구간을 순차적으로 온라인 알고리즘에 투입하였다. 평가 지표는 테스트 셋 로그우도 증가량을 누적한 Σ_t (X(t)−I₀(t))/|I₀(t)| 로, I₀(t)는 재활성화 없이 |R|=0인 증분 Gibbs를 기준으로 잡는다.
결과는 다음과 같다. (1) 증분 Gibbs는 재활성화 |R|를 10~100으로 늘릴 때 로그우도 향상이 크게 나타났지만, 연산 시간도 2배 이상 증가하였다. (2) 파티클 필터는 입자 수 24, ESS 임계값 8~12로 설정했을 때, 배치 Gibbs(200~250 sweep)와 동등하거나 더 나은 로그우도 향상을 보였으며, 전체 연산 시간은 배치 대비 약 30%~50% 감소하였다. (3) 시간‑종속 파티클 필터는 λ₀=1.2~1.3 구간에서 가장 큰 성능 향상을 기록했으며, 특히 구조 변동이 큰 구간에서 기존 파티클 필터보다 평균 15% 이상 높은 로그우도 증가를 보였다.
요약하면, 제안된 온라인 추론 방법은 배치 방식에 비해 메모리와 연산 효율성을 크게 개선하면서도 예측 정확도에서는 손해를 보지 않거나 오히려 개선된다. 특히 시간‑종속 파티클 필터는 동적 네트워크 환경에서 최신 구조 변화를 효과적으로 포착하여 실시간 링크 예측에 유용한 도구가 된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기