제로 인플레이션 포아송 잠재 위치 군집 모델
초록
**
본 논문은 잠재 위치 군집 모델(LPCM)에 제로‑인플레이션 포아송(ZIP) 분포를 결합하여, 가중치가 있는 사회 네트워크에서 누락된(비정상적) 제로 데이터를 자동으로 구분하고, 클러스터 수를 MFM(Mixture‑of‑Finite‑Mixtures) 프레임워크로 추정한다. 부분‑콜랩스드 MCMC와 새롭게 제안된 Truncated Absorb‑Eject(TAE) 이동을 통해 효율적인 베이지안 추론을 수행한다. 3차원 잠재 공간 시각화와 시뮬레이션·실제 데이터 실험을 통해 모델의 정확성과 해석력을 검증한다.
**
상세 분석
**
이 연구는 기존 LPM/LPCM이 이진 네트워크에만 적용 가능하다는 한계를 극복하고, 비음수 정수 가중치를 갖는 네트워크에 ZIP‑LPCM을 도입한다. 핵심 아이디어는 관측된 제로를 “구조적(비정상) 제로)”와 “포아송 제로”로 구분하고, 구조적 제로 발생 확률 pᵢⱼ를 클러스터‑레벨 매개변수 p_{z_i z_j} 로 모델링함으로써, 누락된 상호작용을 잠재적으로 복원한다. 이는 SBM의 블록 구조를 차용한 것으로, 그룹 간 비정상 제로 비율을 자유롭게 추정할 수 있다.
잠재 위치는 d‑차원 유클리드 공간에 배치되며, 포아송 평균 λᵢⱼ는 log(λᵢⱼ)=β−‖u_i−u_j‖ 형태의 거리‑감쇠 함수로 정의된다. 따라서 노드가 서로 가깝게 위치할수록 상호작용 강도가 커지고, 제로 발생 확률은 감소한다. 클러스터링은 다변량 정규 혼합모델로 표현되며, 클러스터 수 K̄는 사전적으로 무한히 큰 MFM을 통해 자동 선택된다. MFM은 “빈 클러스터”를 허용하지 않으므로 기존 Absorb‑Eject(AE) 이동을 그대로 적용할 수 없으며, 저자들은 이를 해결하기 위해 “Truncated Absorb‑Eject(TAE)” 이동을 고안했다. TAE는 현재 클러스터 할당을 부분적으로 고정하고, 빈 클러스터를 허용하지 않는 제약 하에서 새로운 클러스터를 생성하거나 기존 클러스터를 제거하는 제안‑수용 메커니즘이다.
베이지안 추론은 부분‑콜랩스드 Gibbs 샘플러와 Metropolis‑within‑Gibbs 단계로 구성된다. 구체적으로, (1) ν_ij(구조적 제로 지표)와 x_ij(잠재 실제 카운트)를 데이터 증강 방식으로 샘플링하고, (2) λᵢⱼ와 β를 포아송 부분에 대해 조건부 정규/가우시안 형태로 업데이트하며, (3) 클러스터 파라미터(μ_k, τ_k)와 할당 z_i를 다변량 정규‑와 디리클레 사전으로 콜랩스드 형태로 샘플링한다. 이 과정에서 TAE 이동은 클러스터 수 탐색을 효율화하고, MFM의 사전 확률 질량을 유지한다.
시뮬레이션에서는 (①) 제로 비율이 높은 희소 네트워크, (②) 클러스터 간 제로 비율 차이가 큰 경우, (③) 잠재 차원 d=3에서 시각적 해석이 가능한 경우를 각각 검증한다. 결과는 ZIP‑LPCM이 기존 LPCM 대비 제로 과잉을 정확히 구분하고, 클러스터 구조와 잠재 위치를 동시에 복원함을 보여준다. 실제 데이터(범죄자 회의 참석, 이메일 교환, 전화 통화, 협업 네트워크)에서는 새로운 “비정상 제로” 블록 패턴을 발견하고, 3차원 시각화를 통해 그룹 간 거리와 상호작용 강도의 관계를 직관적으로 제시한다.
이 논문의 주요 기여는 (1) 네트워크 가중치 모델에 ZIP를 결합한 통합 프레임워크, (2) MFM 기반 자동 클러스터 수 추정과 TAE 이동을 통한 효율적 샘플링, (3) 3차원 잠재 공간 시각화와 실데이터 적용을 통한 실용성 증명이다. 한계점으로는 (가) 구조적 제로를 이진 블록 모델에만 의존한다는 점, (나) 비대칭(방향성) 관계를 거리‑기반 로그선형식으로만 모델링한다는 점이 있다. 향후 연구에서는 (i) ν_ij의 잠재 구조를 더 복잡한 계층적 모델로 확장하고, (ii) 비대칭 링크를 위한 비선형 거리 변환 또는 외부 공변량 통합을 고려할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기