대규모 확률 그래프에서 효율적인 부분 그래프 유사도 검색

초록

본 논문은 엣지 간 상관관계가 존재하는 확률 그래프 데이터베이스에서 부분 그래프 유사도 검색을 수행한다. 문제의 #P‑완전성을 증명하고, 필터‑검증 프레임워크를 제안한다. 필터 단계에서는 하한·상한을 제공하는 확률 행렬 인덱스(PMI)를 구축해 후보 그래프를 강력히 제거하고, 검증 단계에서는 효율적인 샘플링 기법으로 남은 후보의 실제 유사도 확률을 추정한다. 실험을 통해 제안 방법이 기존 기법 대비 높은 정밀도와 빠른 응답 시간을 보임을 확인하였다.

상세 분석

이 연구는 기존의 확정 그래프(subgraph isomorphism) 검색 기법이 전제하는 ‘모든 엣지가 독립적이다’는 가정을 탈피한다. 실제 데이터베이스에서는 데이터 추출 오류, 통합 과정의 불일치, 프라이버시 보호 등으로 인해 엣지 존재 확률이 서로 얽혀 있는 경우가 빈번하다. 논문은 이러한 상관관계를 모델링하기 위해 확률 그래프를 ‘가능 세계 모델’이 아닌 ‘조건부 확률 분포’ 형태로 정의하고, 각 엣지 집합에 대한 공동 발생 확률을 명시한다.

문제 정의 단계에서 저자들은 ‘부분 그래프 유사도 확률(PSP)’을 도입한다. 이는 질의 그래프 Q와 데이터 그래프 G 사이에 허용되는 편집 거리(삽입·삭제·대체) 이하의 매핑이 존재할 확률을 의미한다. PSP를 정확히 계산하려면 모든 가능한 세계를 열거해야 하므로 #P‑완전임을 정리 1에서 증명한다. 따라서 근사적이면서도 효율적인 접근이 필수적이다.

필터링 메커니즘은 두 가지 핵심 아이디어로 구성된다. 첫째, ‘확률 행렬 인덱스(PMI)’를 구축한다. PMI는 사전 정의된 판별력 높은 서브그래프 패턴들을 피처로 삼아, 각 피처가 데이터 그래프에 포함될 확률의 하한과 상한을 저장한다. 이때 하한은 독립성 가정을 이용한 곱셈식으로, 상한은 포함‑배제 원리를 활용해 상호 의존성을 보정한다. 둘째, 질의 그래프 Q를 동일한 피처 집합으로 분해하고, 각 피처의 하한·상한을 조합해 전체 PSP의 구간을 추정한다. 이 구간이 사용자가 지정한 임계값 θ와 겹치지 않으면 해당 그래프는 즉시 제외된다.

검증 단계에서는 남은 후보에 대해 정확한 PSP를 추정해야 한다. 저자들은 ‘계층적 마르코프 체인 샘플링(HMCS)’을 제안한다. HMCS는 먼저 피처 수준에서 가능한 세계를 샘플링하고, 그 결과를 기반으로 전체 그래프 수준에서 추가 샘플링을 수행한다. 이렇게 하면 샘플링 공간을 크게 축소하면서도 편향을 최소화할 수 있다. 또한, 샘플 수를 동적으로 조절하는 적응형 정지 기준을 도입해 계산 비용을 제어한다.

실험에서는 실세계 RDF 데이터셋과 합성 확률 그래프를 활용해, 기존의 독립 엣지 모델 기반 방법(예: ProbGraph, UGraph)과 비교하였다. 평가 지표는 프리시전·리콜·F1 스코어와 질의 응답 시간이다. 결과는 PMI 기반 필터링이 후보 비율을 평균 85% 이상 감소시켰으며, HMCS 검증이 95% 이상의 정확도를 유지하면서도 평균 응답 시간을 2~3배 단축함을 보여준다. 특히, 엣지 상관관계가 강한 데이터셋에서 제안 방법의 우위가 두드러졌다.

이 논문의 주요 기여는 다음과 같다. (1) 엣지 상관관계를 고려한 확률 그래프 모델링과 PSP의 #P‑완전성 증명, (2) 하한·상한을 동시에 제공하는 확률 행렬 인덱스 설계, (3) 계층적 샘플링을 통한 효율적 검증 알고리즘, (4) 대규모 실험을 통한 실용성 입증. 이러한 기여는 불확실성을 내포한 네트워크 분석, 생물학적 상호작용 예측, 지식 그래프 질의 등 다양한 도메인에 적용 가능성을 열어준다.