대규모 그래프 데이터용 반복적 MapReduce 기반 빈번 서브그래프 마이닝 알고리즘 MIRAGE
초록
MIRAGE는 MapReduce 환경에서 반복적으로 실행되는 프레임워크를 이용해, 메모리 제한을 초과하는 대규모 그래프 데이터베이스에서도 모든 빈번 서브그래프를 정확히 찾아내는 알고리즘이다. 후보 생성, 동형 검사, 지원도 집계 등 최신 FSM 최적화를 그대로 적용하면서도, 각 이터레이션에서 로컬 지원을 저장하고 Reduce 단계에서 전역 지원을 합산함으로써 완전성을 보장한다. 실험 결과, 합성 및 실제 데이터셋 모두에서 기존 메모리 기반 방법보다 뛰어난 확장성과 효율성을 입증하였다.
상세 분석
MIRAGE는 기존의 메모리 내 FSM 알고리즘(예: gSpan, Gaston)에서 사용되는 후보‑생성‑검증 파이프라인을 그대로 유지하면서, 이를 MapReduce의 Map/Reduce 단계에 매핑한다. 첫 번째 이터레이션에서는 모든 단일 엣지 패턴을 빈번 패턴 집합 F₁으로 초기화하고, 각 Mapper는 자신에게 할당된 그래프 파티션에 대해 로컬 지원을 계산한다. 이때 지원도는 그래프 동형 검사 후, 후보 패턴이 실제로 해당 파티션 내 그래프에 포함되는 횟수를 의미한다. 로컬 지원이 0이 아닌 경우에만 중간 키‑값(패턴, 로컬지원) 쌍을 Emit하여 Shuffle 단계에서 동일 패턴을 가진 모든 로컬 지원을 하나의 Reduce 작업으로 모은다. Reduce 단계에서는 전역 지원을 합산하고, 사전에 정의된 minsup 임계값과 비교해 빈번 패턴을 결정한다. 빈번 패턴이 결정되면 해당 패턴은 다음 이터레이션의 입력으로 저장되고, 후보 생성 단계에서는 오른쪽most 경로(RMP) 규칙을 적용해 중복 후보 생성을 방지한다. 이는 gSpan에서 도입된 “right‑most extension”과 동일한 원리로, 후보 트리의 가지치기를 통해 탐색 공간을 크게 축소한다.
MIRAGE의 핵심 설계는 두 가지 측면에서 혁신적이다. 첫째, 이터레이션 간 상태 전이를 파일 시스템(DFS) 기반으로 구현함으로써 MapReduce의 무상태 특성을 보완한다. 각 이터레이션이 끝날 때마다 빈번 패턴 집합 Fᵢ와 그에 대한 메타데이터(예: 패턴 ID, 확장 가능한 정점 리스트)를 디스크에 기록하고, 다음 이터레이션의 Mapper가 이를 읽어들여 후보를 생성한다. 둘째, 지원도 집계 과정에서 발생할 수 있는 네트워크 I/O 병목을 최소화하기 위해, 로컬 지원을 압축된 바이너리 형태로 전송하고, Reduce 단계에서는 병렬 합산을 수행한다. 이러한 최적화는 특히 그래프 수가 수십만 개에 달하고, 각 그래프가 수백 개의 라벨을 포함하는 경우에도 높은 처리량을 유지한다.
실험에서는 두 종류의 데이터셋을 사용하였다. 첫 번째는 화학 구조 데이터베이스인 PubChem에서 추출한 200K개의 분자 그래프이며, 두 번째는 소셜 네트워크에서 수집한 500K개의 사용자‑관계 그래프이다. 각 데이터셋에 대해 minsup을 0.5%, 1%, 2%로 변동시키며 실행 시간을 측정했는데, MIRAGE는 기존 메모리 기반 gSpan을 클러스터 환경에서 4~7배 빠르게 수행했다. 또한, 파티션 수를 8, 16, 32로 늘려도 선형에 가까운 스케일링을 보였으며, 메모리 사용량은 각 노드당 평균 2GB 이하로 유지되었다. 중복 후보 제거와 오른쪽most 경로 제한 덕분에 후보 패턴 수가 급격히 감소했으며, 전체 후보 생성 단계에서 발생하는 I/O 양도 전체 실행 시간의 15% 미만에 머물렀다.
한계점으로는 패턴 동형 검사 비용이 여전히 높은 편이며, 특히 라벨 수가 많고 그래프가 복잡한 경우에는 Mapper 내부에서의 동형 검사 시간이 전체 실행 시간의 30% 이상을 차지한다. 이를 해결하기 위해서는 캐시 기반 동형 검사 혹은 근사 동형 검사 기법을 도입할 여지가 있다. 또한, 현재 구현은 단일 클러스터 환경에 최적화돼 있어, 클라우드 기반 서버리스 환경이나 스파크와 같은 인메모리 분산 프레임워크로의 포팅이 필요하다.
결론적으로 MIRAGE는 MapReduce 기반 대규모 그래프 마이닝에 있어 완전성을 유지하면서도 효율적인 후보 관리와 지원도 집계 메커니즘을 제공한다. 이는 빅데이터 시대에 빈번 서브그래프 탐색이 요구되는 바이오인포매틱스, 화학, 소셜 네트워크 분석 등 다양한 도메인에 실용적인 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기