패턴 컬렉션 관리를 위한 라벨 그래프와 대수 연산 프레임워크
초록
본 논문은 대규모 데이터 마이닝 결과인 형식 개념(Formal Concept) 집합을 효율적으로 저장·조회하기 위해 라벨이 부착된 그래프 구조를 제안한다. 그래프는 개념들의 포함 관계를 Hasse 다이어그램 형태로 표현하며, 선택·투사와 같은 기본 연산을 대수적 연산자로 정의한다. 이를 통해 사용자는 원본 데이터를 직접 접근하지 못하더라도 패턴 베이스를 손쉽게 탐색·조작할 수 있다.
상세 분석
논문은 먼저 기존의 패턴 베이스 관리 방식, 즉 인덕티브 데이터베이스와 전통적인 PBMS(패턴 베이스 관리 시스템)의 한계를 짚는다. 인덕티브 DB는 패턴과 데이터 마이닝 언어를 통합하지만 연산이 기본적이며, 관계형 모델에 기반한 PBMS는 복잡한 질의에 비직관적이고 성능이 떨어진다. 이러한 문제를 해결하기 위해 저자들은 ‘형식 개념’이라는 특수한 패턴 클래스에 초점을 맞춘다. 형식 개념은 속성 집합 X와 객체 집합 Y가 1‑rectangle(모두 1인 서브매트릭스)를 이루는 최대 쌍으로 정의되며, 부분 순서 (X⊆X′, Y′⊆Y) 에 따라 격자를 형성한다.
핵심 제안은 이 격자를 라벨 그래프로 변환하는 것이다. 그래프의 정점은 개념 자체이며, 두 정점 사이에 직접적인 선행‑후속 관계(즉, 커버 관계)가 존재할 때만 간선을 만든다. 추가로 최상위 ⊤와 최하위 ⊥ 정점을 도입해 모든 개념을 포괄한다. 라벨은 정점에 (X, Y) 쌍을 저장하거나, 간선에 차집합 X′\X와 Y\Y′을 부여하는 두 방식 중 선택 가능하다. 이 구조는 속성·객체의 순서를 강제하지 않으면서도 이중성(dual) 특성을 보존한다는 장점이 있다.
그래프 구축 알고리즘은 개념 리스트를 X의 크기 순으로 삽입한다. 삽입 시 현재 그래프에서 ⊤만을 선행자로 두고, 깊이 우선 탐색을 통해 새로운 개념이 커버하는 기존 개념들을 찾아 선행‑후속 간선을 추가한다. 이미 ⊤와 연결된 개념은 ⊤와의 간선을 삭제하고 새로운 간선을 만든다. 이 과정은 각 삽입마다 전체 그래프를 탐색하지 않아도 되므로, O(|C|·|E|) 수준의 효율성을 기대한다.
연산 측면에서 저자들은 두 종류의 질의를 정의한다. 선택 연산 σₚ는 개념 집합 C에서 주어진 술어 p를 만족하는 (X, Y)만을 추출한다. 예를 들어, 속성 수가 γ보다 큰 개념, 빈도(객체 수)가 γ보다 큰 개념, 특정 속성 A가 포함된 개념 등을 손쉽게 구현한다. 투사 연산 π_A는 속성 부분집합 A에 대해 전체 개념 집합을 축소한다. 여기서 핵심은 A‑동치 관계를 정의하고, 각 동치 클래스의 최소 원소(least element)를 찾아 (X∩A, Y) 형태로 새로운 개념을 구성한다. 이론적으로는 원본 데이터베이스에 접근하지 않고도 투사된 개념 집합을 정확히 재구성할 수 있음을 증명한다.
마지막으로, 제안된 그래프와 연산은 기존의 자동화된 패턴 저장소(예: 최소 자동자, 커뮤티티브 자동자)와 비교해 라벨링에 의한 순서 의존성을 없애고, 객체와 속성 양쪽에 대한 대칭적인 질의를 지원한다는 점에서 차별화된다. 또한, 라벨 그래프는 XML 기반 표현이나 관계형 테이블보다 메모리 효율이 높으며, 대수 연산을 통해 복합 질의를 조합할 수 있어 실무에서의 활용 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기