반지도 학습 네트워크 클러스터링의 위상 전이와 임계 현상

스파스한 확률 블록 모델에서 일부 노드의 라벨을 사전에 알면, 기존의 탐지 불가능 전이가 사라지고, 그룹 수가 4보다 클 때는 라벨 비율 α에 따라 정확도가 불연속적으로 뛰어오르는 1차 전이선이 형성된다. 이 전이선은 임계점에서 2차 전이로 변하고, 이후 정확도는 α에 대해 연속적으로 변한다. 실험은 합성 그래프와 실제 네트워크 모두에서 동일한 현상을 확인한다.

저자: Pan Zhang, Cristopher Moore, Lenka Zdeborova

본 연구는 스파스한 네트워크에서 노드 라벨을 일부만 사전에 알았을 때(반지도 학습, semi‑supervised learning) 전체 라벨 복원 정확도가 어떻게 변하는지를 확률 블록 모델(stochastic block model, SBM)과 belief propagation(BP) 기반의 cavity method를 이용해 체계적으로 조사한다. 1. **문제 정의와 모델 설정** - SBM은 n개의 노드를 k개의 그룹으로 나누고, 그룹 간 연결 확률을 행렬 p_{ab}=c_{ab}/n으로 정의한다. 여기서는 균등한 그룹 크기(q_a=1/k)와 내부·외부 평균 차수 c_in, c_out만을 남기는 플랜티드 파티션 모델을 사용한다. - 라벨이 알려진 노드 비율을 α라 두고, 알려진 라벨에 대해서는 BP 메시지를 고정(δ 함수)함으로써 외부 필드 h_a를 지역적으로 조정한다. 2. **베이즈 최적 추론과 BP 고정점** - BP는 각 노드 i가 그룹 a에 속할 사후 확률 ψ_i^a를 근사한다. 고정점은 베트 자유 에너지(F_Bethe)의 극값이며, 두 종류가 존재한다. * **Factorized 고정점**: 모든 노드가 균등 확률 q_a=1/k를 갖는 비특이점. * **정확한 고정점**: 실제 커뮤니티 구조를 반영하는 비대칭 고정점. - 고정점의 안정성은 Jacobian 행렬의 스펙트럼으로 판단한다. 3. **k=2인 경우** - 기존 무라벨 상황에서 탐지 전이(Kesten‑Stigum 경계)는 c_in−c_out = √c 에서 발생한다. - α>0이면 factorized 고정점이 즉시 불안정해지고, BP는 정확한 고정점으로 수렴한다. 따라서 탐지 전이가 사라지고, 정확도는 α에 대해 연속적으로 증가한다. 이는 이전 연구(

반지도 학습 네트워크 클러스터링의 위상 전이와 임계 현상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기