불확실 그래프 분류를 위한 차별적 서브그래프 선택

본 논문은 그래프 구조가 확률적으로 존재하는 ‘불확실 그래프’에서, 클래스 구분에 유용한 서브그래프를 효율적으로 발굴하는 방법을 제안한다. 서브그래프의 판별 점수를 확률분포로 모델링하고, 기대값·중위수·최빈값·ϕ‑확률 등 네 가지 통계량을 이용해 중요도를 평가한다. 동적 프로그래밍으로 점수 분포를 계산하고, 가지치기 기반 탐색으로 후보 서브그래프를 빠르게 선별한다. 신경영상 데이터(알츠하이머, ADHD, HIV) 실험을 통해 구조적 불확실성을 …

저자: Xiangnan Kong, Philip S. Yu, Xue Wang

불확실 그래프 분류를 위한 차별적 서브그래프 선택
1. 서론 그래프 데이터는 화학 구조, 프로그램 흐름, 뇌 네트워크 등 다양한 분야에서 핵심 표현 방식이다. 기존 연구는 그래프가 확정적이라고 가정하고, 서브그래프가 클래스 구분에 얼마나 기여하는지를 정보이득, G‑test 등으로 평가한다. 그러나 실제 많은 응용에서는 엣지 존재 자체가 확률적이며, 이러한 구조적 불확실성을 무시하면 중요한 패턴을 놓치게 된다. 특히, fMRI 기반 뇌 기능 연결망은 각 연결이 통계적 유의성에 따라 확률값을 갖는다. 따라서 불확실 그래프 환경에서 차별적 서브그래프를 찾는 문제를 정의하고 해결책을 제시하는 것이 본 연구의 동기이다. 2. 문제 정의 및 기본 개념 불확실 그래프 eG = (V, E, p)에서 p(e)∈(0,1]는 엣지 e가 실제로 존재할 확률을 의미한다. 각 그래프는 독립적인 엣지 확률을 가진다(엣지 간 상관관계는 본 논문에서 제외). 불확실 그래프 집합 𝔻 = {eG₁,…,eGₙ}에 대해, 각 그래프는 ‘세계(world)’라 불리는 확정 그래프 G로 샘플링될 수 있으며, 전체 세계 집합 W(𝔻)는 2^{|E₁|}·…·2^{|Eₙ|}개의 경우를 포함한다. 서브그래프 g는 확정 그래프 G에 포함될 경우에만 존재하므로, 불확실 그래프 eG에 대한 포함 확률은 Pr(g⊆eG)=∏_{e∈E(g)}p(e) (단, E(g)⊆E(eG)인 경우). 판별 점수 함수 F(g, D)는 확정 그래프 집합 D에 대해 정의된 전통적인 통계량(예: 정보이득, χ² 등)이다. 불확실 그래프에서는 F(g, 𝔻)가 확률변수가 되며, 그 분포는 모든 세계 D∈W(𝔻)에 대한 가중합으로 계산된다. 3. 판별 점수 분포와 통계량 저자들은 네 가지 통계량을 제안한다. - 평균점수(Mean‑Score): 기대값 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기