베이지안 정점 후보 선정 모델과 실증 분석
초록
관찰된 소수의 적색 정점과 모든 정점·간선의 색 정보를 이용해, 관측되지 않은 정점 중 하나를 적색(범죄자)으로 후보 지정하는 베이지안 프레임워크를 제안한다. 정점의 ‘맥락 통계’와 ‘내용 통계’를 독립적인 충분통계로 가정하고, 적색 간선이 적색 정점 사이에 더 자주 나타난다는 가정 하에 Coppersmith‑Priebe(2012)의 가능도 모델을 베이지안화한다. 사전분포와 메트로폴리스‑위드‑인‑깁스 샘플링을 통해 사후확률을 추정하고, 사후확률이 가장 높은 정점을 후보로 선정한다. 시뮬레이션과 Enron 이메일 데이터 적용 결과, 제안 모델은 우연보다 현저히 높은 정확도를 보이며 기존 방법과 동등하거나 우수한 성능을 나타낸다.
상세 분석
본 논문은 정점 후보 선정(vertex nomination) 문제를 베이지안 관점에서 재구성한다. 기본 설정은 정점이 초록색 또는 적색으로 색칠된 속성 그래프이며, 적색 정점 중 일부만이 사전에 관찰된다. 모든 간선도 초·적색으로 색이 지정되고, 이는 완전 관측된다. 정점 i에 대해 두 가지 통계량을 정의한다. 첫째, ‘맥락 통계’ C_i는 관측된 적색 정점과 i가 연결된 수이며, 둘째, ‘내용 통계’ D_i는 i에 인접한 적색 간선의 개수이다. Coppersmith와 Priebe(2012)는 이 두 통계가 정점 간에 독립적이며, 적색 정점 사이에서는 적색 간선이 더 자주 발생한다는 가정을 바탕으로 이항 가능도 모델을 제시했다.
저자는 이 가능도에 베이지안 사전분포를 결합한다. 적색 정점의 총 개수 M은 작은 정수 범위(예: 1~K) 내에서 균등 사전 또는 베타‑이항 형태로 지정하고, 각 정점이 적색일 확률 θ는 베타 사전을 부여한다. 또한, 적색 간선 발생 확률 p_R와 초록색 간선 발생 확률 p_G에 대해 베타 사전을 설정한다. 이렇게 하면 전체 파라미터 집합 {M, θ, p_R, p_G, Z} (Z는 각 정점의 색 상태) 에 대한 사후분포를 명시적으로 기술할 수 있다.
사후분포는 고차원 이산·연속 혼합 형태이므로 직접 계산이 불가능하다. 저자는 메트로폴리스‑위드‑인‑깁스(Metropolis‑within‑Gibbs) 알고리즘을 설계한다. 구체적으로, Z를 조건부로 샘플링할 때는 각 정점의 색을 토대로 이항 확률을 계산하고, 연속 파라미터 θ, p_R, p_G는 베타 사전과 이항 가능도 결합으로부터 유도된 풀조건부 사후분포에서 직접 샘플링한다. M은 제한된 정수 집합에 대해 메트로폴리스 제안을 사용한다. 이 과정을 충분히 반복해 수렴된 사후 샘플을 얻고, 각 정점이 적색일 사후 확률을 추정한다.
후보 선정 규칙은 사후 확률이 가장 높은 정점을 선택하는 ‘MAP‑정점’이다. 시뮬레이션에서는 총 정점 수 N=200, 적색 정점 비율 5% 정도의 설정에서 다양한 p_R/p_G 비율을 변동시켜 성능을 평가한다. 결과는 (i) 무작위 추첨 대비 현저히 높은 정확도, (ii) 후보 정점의 사후 확률이 클수록 실제 적색일 확률이 상승한다는 정량적 관계, (iii) 기존 Coppersmith‑Priebe 방법과 비교해 동일하거나 더 높은 성공률을 보임을 확인한다.
Enron 이메일 데이터에 적용할 때는 직원과 외부 연관자를 정점으로, 이메일 교환을 간선으로, 사기성 이메일을 적색 간선으로 라벨링한다. 관측된 사기자(적색 정점) 몇 명을 이용해 모델을 학습하고, 사후 확률이 가장 높은 미관측 정점을 사기 의심 인물로 제시한다. 실제 사기자와의 일치율은 기존 방법보다 약간 높았다.
핵심 기여는 (1) 정점 후보 선정 문제를 완전 베이지안 프레임워크로 확장해 불확실성을 정량화, (2) 메트로폴리스‑위드‑인‑깁스 샘플러를 통해 실용적인 추론 절차 제공, (3) 시뮬레이션 및 실제 데이터에서 기존 방법 대비 경쟁력 입증이다. 한계점으로는 사전 선택에 대한 민감도 분석이 부족하고, 대규모 그래프에 대한 샘플링 효율성 개선이 필요하다는 점을 언급한다.
댓글 및 학술 토론
Loading comments...
의견 남기기