베이지안 모델 선택으로 최적 블록 수 찾기와 모델 비교

이 논문은 네트워크 분석에서 널리 쓰이는 확률 블록 모델(SBM)의 블록 수와 모델 형태를 베이지안 프레임워크로 선택하는 방법을 제시한다. 베이지안 정보 기준(BIC)과 최소 설명 길이(MDL) 원리를 연결하여, 기본 SBM과 차수 보정 SBM(DC‑SBM) 모두에 적용 가능한 보편적인 모델 선택 절차를 개발한다. 또한, 라플라스 근사와 베이지안 코딩을 이용해 복잡도 페널티를 명시적으로 계산하고, 실험을 통해 제안 방법이 기존 정보 기준보다 안…

저자: Xiaoran Yan

베이지안 모델 선택으로 최적 블록 수 찾기와 모델 비교
본 논문은 네트워크 과학에서 핵심적인 문제인 커뮤니티(또는 기능적 블록) 탐지를 위한 확률 블록 모델(SBM)의 모델 차원 선택과 모델 비교를 베이지안 관점에서 체계적으로 다룬다. 서론에서는 전통적인 커뮤니티 정의가 고밀도 내부·저밀도 외부 연결에 초점을 맞추는 반면, 기능적 커뮤니티는 블록 간 연결 패턴이 유사한 정점을 그룹화한다는 점을 강조한다. 이러한 관점에서 SBM은 정점들을 잠재 블록에 할당하고, 블록 간 연결 확률 행렬 p를 통해 네트워크를 생성하는 생성 모델로 소개된다. 또한, 차수 보정 SBM(DC‑SBM)과 같은 변형 모델이 실제 네트워크의 이질적인 차수 분포를 포착할 수 있음을 언급한다. 문제 정의 부분에서는 모델 선택이 복잡도와 데이터 적합도 사이의 트레이드오프를 조절해야 함을 강조한다. 기존의 빈도주의 정보 기준(AIC, BIC 등)이나 검정 기반 방법은 독립 데이터 가정이 깨지는 네트워크 구조에 직접 적용하기에 한계가 있다. 따라서 저자는 베이지안 모델 선택을 채택한다. 베이지안 접근은 사전분포와 사후분포를 이용해 전체 파라미터 공간을 통합함으로써 과적합을 방지하고, 모델 간 비교를 베이즈 팩터 혹은 사후 확률 비율로 수행한다. 핵심 이론 전개에서는 먼저 SBM의 수학적 정의를 제시한다. 정점 집합 V, 에지 집합 E, 블록 수 k, 블록 할당 g(u), 블록 크기 n_s, 블록 간 에지 수 m_st 등을 도입하고, 블록 할당 확률 q와 블록 간 연결 확률 p에 대한 사전분포를 각각 디리클레와 베타로 설정한다. 이러한 사전분포는 공액(conjugate) 관계에 있어 적분이 닫힌 형태로 가능하다. 이후 통합 완전 가능도(ICL)를 계산하고, 이를 로그 변환해 BIC 형태로 근사한다. 라플라스 근사와 스털링 근사를 적용해 로그 ICL ≈ −2·log L̂ + |Π|·log n 형태를 얻으며, 여기서 |Π|는 파라미터 자유도(블록 크기와 연결 확률 수)이다. 다음으로 최소 설명 길이(MDL) 원리와의 연결을 설명한다. 베이지안 코딩 이론에 따라 사전분포를 제프리 사전으로 잡으면, 코딩 길이는 ICL와 동일해진다. 저자는 블록 수 k, 블록 크기 분할, 정점 할당, 블록 쌍 간 에지 수, 에지 배치 순서 등 다섯 단계의 코딩 절차를 구체화하고, 각 단계의 조합 수를 로그 변환해 전체 코딩 길이를 도출한다. 이 코딩 길이는 Peixoto가 제시한 MDL 공식과 수학적으로 동일함을 증명한다. 차수 보정 SBM(DC‑SBM)으로 확장하는 과정에서는 각 정점 i에 파라미터 θ_i를 도입해 기대 차수를 맞춘다. θ_i는 디리클레 사전으로 모델링하고, 전체 파라미터 공간에 대한 적분을 수행한다. 결과적으로 DC‑SBM의 ICL와 BIC는 기본 SBM에 비해 추가 자유도 |θ|를 포함한 형태가 되며, 동일한 베이지안‑MDL 프레임워크 내에서 두 모델을 직접 비교할 수 있다. 실험에서는 5블록, 1000정점의 무작위 그래프를 생성하고, 다양한 후보 블록 수 k(4,5,9 등)와 모델(기본 SBM, DC‑SBM)을 적용한다. 로그 ICL 히스토그램을 통해 올바른 블록 수가 평균적으로 가장 높은 가능도를 갖지만, 데이터 변동성으로 인해 겹치는 영역이 존재함을 확인한다. 고정된 그래프와 고정된 블록 할당을 사용하면 올바른 k가 항상 최고 로그 가능도를 보이며, 베이지안 선택 기준이 일관된 모델 식별 능력을 갖는다는 점을 실증한다. 또한, BIC와 MDL 기반 선택 결과가 서로 일치함을 보여 이론적 연결성을 검증한다. 결론에서는 제안된 베이지안 모델 선택 프레임워크가 블록 수(order) 선택과 모델 형태(standard vs degree‑corrected) 선택을 동시에 수행할 수 있는 보편적인 도구임을 강조한다. 이는 기존의 빈도주의 정보 기준이 갖는 가정 위반 문제를 해결하고, 네트워크 데이터의 복잡한 구조적 특성을 반영한다. 향후 연구 방향으로는 중첩 블록, 계층적 블록, 메타데이터 기반 블록 모델 등 다양한 확장 모델에 대한 베이지안‑MDL 선택 기준 적용을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기