동형사상 기반 네트워크 트리 패턴 마이닝: 효율적 알고리즘과 핵심 패턴 탐색
초록
본 논문은 서브그래프 동형사상(동형사상)으로 트리 패턴의 지지도 계산을 수행함으로써, 전통적인 서브그래프 동형사상(NP‑complete) 기반 방법의 계산 복잡성을 극복한다. 동형사상은 다항시간에 계산 가능하지만, 서로 다른 크기의 트리가 동등하게 보이거나 무한히 큰 빈번 패턴이 발생하는 두 가지 문제를 야기한다. 이를 해결하기 위해 저자는 ‘코어 트리’ 개념과 반단조 제약을 도입하고, 깊이‑우선 순회의 정규 코드를 이용한 사전순(lexicographic) 정규화 방식을 적용해 모든 빈번 코어 트리를 증분 다항시간으로 열거하는 알고리즘을 제시한다. 또한 폐쇄형·최대형 패턴 탐색과 구문 제약을 통한 확장도 제공한다.
상세 분석
이 논문은 그래프 마이닝 분야에서 가장 근본적인 병목 현상인 서브그래프 동형사상의 NP‑complete 특성을 피하고자, 트리 패턴에 한정하여 서브그래프 동형사상(동형사상) 기반 지원도 정의를 채택한다. 동형사상은 매핑 함수가 단사(injective)일 필요가 없으므로, 트리‑패턴 ↔ 데이터 그래프 사이의 매핑을 다항시간에 계산할 수 있다. 그러나 두 가지 근본적인 문제점이 존재한다. 첫째, 서로 다른 크기의 트리라도 동형사상 관계에 의해 동일한 이미지 집합을 가질 수 있어, 전통적인 레벨‑와이즈(level‑wise) 탐색이 무한히 많은 중복 패턴을 생성한다(Problem 1). 둘째, 데이터 그래프에 사이클이 존재하면, 크기가 증가하는 트리들이 모두 동일한 작은 서브그래프에 동형사상될 수 있어, 빈번 패턴이 무한히 늘어나는 현상이 발생한다(Problem 2).
이를 해결하기 위해 저자는 ‘코어 트리(core tree)’ 개념을 도입한다. 코어 트리는 자신보다 작은 트리와 동형사상 관계가 없으며, 형제 서브트리 간에 동형사상 포함 관계가 존재하지 않는 트리이다(정리 1). 코어 트리는 동형사상 등가류를 대표하는 최소 구조이므로, 모든 빈번 패턴을 코어 트리 집합으로 압축할 수 있다. 또한, 반단조 제약(anti‑monotonic constraint)을 정의해 트리 크기에 상한을 두어 무한 빈번 패턴 문제를 방지한다. 이 제약은 트리의 루트 이미지 크기가 임계값 θ 이상이어야 함을 보장하면서, 트리 확장이 진행될수록 지지도가 감소하는 성질을 유지한다.
알고리즘 구현 측면에서는 깊이‑우선 순서(depth‑first) 기반의 ‘정규 코드(canonical code)’를 활용한다. 각 트리를 전위 순회하면서 노드 깊이와 라벨을 문자열로 기록하고, 사전순으로 가장 큰 문자열을 정규 코드로 채택한다. 정규 코드는 (1) 모든 전위 접두어가 역시 정규 코드이며, (2) 형제 노드들의 서브트리 코드는 사전순으로 비내림차순이어야 한다는 두 가지 중요한 성질을 만족한다. 이러한 성질 덕분에 후보 트리의 확장은 기존 정규 코드의 접두어 연장만으로 수행할 수 있어, 중복 탐색을 원천 차단하고 증분 다항시간을 확보한다.
알고리즘 흐름은 다음과 같다. 초기에는 단일 노드(루트) 트리부터 시작해, 정규 코드와 코어 조건을 만족하는 확장 후보를 생성한다. 각 후보에 대해 데이터 그래프에서 루트 이미지 집합을 동형사상으로 계산하고, 지지도 ≥ θ이면 빈번 패턴으로 저장한다. 동시에, 후보가 코어가 아니면(형제 서브트리 간 동형사상 포함 관계가 존재하면) 더 작은 코어 트리로 축소한다. 이 과정은 트리 크기가 증가함에 따라 반복되며, 반단조 제약이 위배되는 경우 탐색을 조기에 종료한다.
추가적으로 논문은 폐쇄형(closed) 및 최대형(maximal) 패턴 마이닝을 위한 확장도 제시한다. 폐쇄형 패턴은 동일한 지지도를 갖는 상위 트리가 존재하지 않는 패턴이며, 최대형 패턴은 더 큰 트리로 확장될 수 없는 패턴이다. 코어 트리와 정규 코드를 이용해 이러한 특성을 효율적으로 검증한다. 마지막으로, 구문 제약(syntactic constraints)을 도입해 특정 라벨 조합이나 트리 구조를 사전에 제한함으로써, 실제 응용(예: 학술 논문 메타데이터)에서 의미 있는 패턴만을 추출하도록 설계하였다.
전체적으로 이 연구는 (1) 동형사상 기반 지원도 정의, (2) 코어 트리와 정규 코드를 통한 중복 제거, (3) 반단조 제약을 이용한 무한 패턴 억제, (4) 증분 다항시간 복잡도 보장, (5) 폐쇄·최대형 및 구문 제약 확장이라는 다섯 축을 통해 기존 서브그래프 동형사상 마이닝의 한계를 극복하고, 실제 대규모 네트워크 데이터에 적용 가능한 실용적인 트리 패턴 마이닝 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기