무작위 그래프 모델 적합도 검정
본 논문은 행·열 스케일링 파라미터로 정의되는 Rasch 모델과, 대칭 행렬에 적용되는 Diaconis‑팀의 베타 모델의 적합성을 검정하는 통계적 방법을 제시한다. 또한 Holland‑Laskey‑Leinhard가 제안한 블록 모델을 확장한 형태로, 블록 구조를 갖는 확률 그래프에 대한 적합도 검정 절차를 개발한다.
저자: Vill"o Csiszar, Peter Hussami, Janos Komlos
본 논문은 무작위 그래프 모델의 적합성을 평가하기 위한 통계적 검정 방법을 체계적으로 개발하고, 기존 모델들을 확장하는 두 가지 주요 기여를 제시한다. 첫 번째 기여는 Rasch 모델과 Diaconis‑팀이 재발견한 베타 모델에 대한 적합도 검정 절차를 제안하는 것이다. Rasch 모델은 행과 열에 각각 양의 스케일링 파라미터 α_i, β_j 를 두어, 행렬 원소 (i, j)의 성공 확률을 p_{ij}=α_i β_j/(1+α_i β_j) 로 정의한다. 이 모델은 교육 측정 분야에서 문항·응답자 능력 추정에 널리 쓰였으며, 파라미터가 로그‑odds 형태로 선형적으로 해석될 수 있다는 장점이 있다. 베타 모델은 무향 그래프, 즉 대칭 행렬에 적용되며, 각 정점 v에 파라미터 θ_v 를 할당하고, 두 정점 i, j 사이에 에지가 존재할 확률을 p_{ij}=θ_i θ_j/(1+θ_i θ_j) 로 정의한다. 이 모델은 정점별 “활성도”에 기반해 그래프의 degree 분포를 정확히 맞출 수 있지만, 실제 네트워크에서 흔히 나타나는 커뮤니티(블록) 구조를 반영하지 못한다는 한계가 있다.
두 번째 기여는 Holland‑Laskey‑Leinhard가 제안한 블록 모델을 Rasch/베타 모델과 결합한 확장 모델을 도입하는 것이다. 정점을 K개의 블록으로 구분하고, 블록 간·내 연결 확률을 별도 파라미터 φ_{kl} 로 모델링한다. 이를 통해 비대칭 경우에는 p_{ij}=α_i β_j φ_{g(i)g(j)}/(1+α_i β_j φ_{g(i)g(j)}), 대칭 경우에는 p_{ij}=θ_i θ_j φ_{g(i)g(j)}/(1+θ_i θ_j φ_{g(i)g(j)}) 로 정의한다. 여기서 g(i) 는 정점 i 가 속한 블록을 나타낸다. 이 확장 모델은 정점별 이질성(스케일링 파라미터)과 블록 간 이질성(φ 파라미터)을 동시에 포착함으로써, 기존 모델이 놓치던 커뮤니티 구조와 정점 중심의 변동성을 동시에 설명한다.
적합도 검정은 두 단계로 구성된다. 첫 단계에서는 관측된 그래프에 대해 최대우도 추정(MLE) 혹은 EM 알고리즘을 이용해 모델 파라미터를 추정한다. 추정된 파라미터를 바탕으로 기대 그래프를 생성하고, 관측 그래프와 기대 그래프 사이의 차이를 잔차 행렬로 만든다. 두 번째 단계에서는 이 잔차 행렬에 기반한 통계량을 정의하고, 파라미터 추정 후 조건부 독립성을 유지하면서 그래프를 무작위 재생성한다. 재생성된 그래프들에 대해 동일한 통계량을 계산하여 귀무분포를 추정하고, 관측 통계량이 이 분포의 극단에 위치하면 모델을 기각한다. 논문은 Pearson‑type χ² 통계와 그래프 라플라시안 스펙트럼(고유값) 기반 통계량을 결합한 복합 검정량을 제안한다. 이 복합 검정은 전역적인 구조 차이와 지역적인 degree 차이를 동시에 포착하여, 단일 χ² 검정보다 높은 검정력을 제공한다.
이론적 측면에서는 파라미터 식별성(identifiability)과 추정 일관성(consistency)을 증명한다. Rasch와 베타 모델은 각각 행·열 스케일링과 정점 스케일링에 대해 고유한 로그‑odds 표현을 갖기 때문에 식별성이 보장된다. 블록 확장 모델의 경우, 블록 라벨의 순열에 대한 비식별성을 제외하면 파라미터가 고유하게 결정된다. 또한, 노드 수 n → ∞ 일 때 MLE가 실제 파라미터에 수렴함을 보이며, 대규모 네트워크에서도 안정적인 추정이 가능함을 확인한다.
실험에서는 합성 데이터와 실제 네트워크 데이터를 이용해 검정 방법을 평가한다. 합성 실험에서는 블록 구조가 명확히 존재하는 경우, 완전 무작위인 경우, 그리고 블록 구조가 약한 혼합 상황을 시뮬레이션한다. 결과는 제안된 복합 검정이 기존 단일 χ² 검정보다 높은 검정력을 보이며, 특히 블록 구조가 약하거나 노이즈가 많은 상황에서도 유의미한 차이를 탐지한다는 것을 보여준다. 실제 데이터에서는 소셜 네트워크, 생물학적 상호작용 네트워크, 협업 네트워크 등을 분석하였다. 일부 네트워크는 베타 모델만으로는 충분히 설명되지 않았으며, 블록 확장 모델이 더 높은 적합도를 보였다. 이는 실제 복잡한 네트워크가 정점별 이질성과 커뮤니티 구조를 동시에 포함하고 있음을 실증한다.
결론적으로, 논문은 무작위 그래프 모델의 적합도를 정량적으로 평가할 수 있는 통합 프레임워크를 제공한다. Rasch/베타 모델에 대한 기존 검정 방법을 보완하고, 블록 구조를 포함한 확장 모델을 도입함으로써, 실제 네트워크 분석에 필요한 유연성과 정확성을 동시에 확보한다. 향후 연구 과제로는 동적(시간에 따라 변하는) 그래프, 가중 그래프, 그리고 고차원 텐서 형태의 복합 네트워크에 대한 확장 가능성을 제시하고 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기