개선된 FP트리 기반 연관 규칙 마이닝 기법

초록

본 논문은 기존 FP‑트리 알고리즘이 생성하는 다수의 CP‑트리와 후보 집합 생성 문제를 해결하기 위해, 헤더 테이블을 수정하고 스페어 테이블을 도입한 개선형 FP‑트리 구조와 MFI(Maximal Frequent Itemset) 알고리즘을 결합한 새로운 연관 규칙 마이닝 기법을 제안한다. 제안 기법은 후보 집합 없이 빈번 아이템 집합을 효율적으로 추출하며, 메모리 사용량과 연산 시간을 크게 감소시킨다.

상세 요약

FP‑트리(Frequent Pattern Tree)는 데이터베이스에서 빈번 아이템 집합을 추출하기 위해 트리 구조를 이용하는 대표적인 비탐색 기반 알고리즘이다. 전통적인 FP‑트리 구현에서는 각 아이템에 대한 포인터를 보관하는 헤더 테이블과, 트리 내에서 동일 아이템을 연결하는 링크 체인을 사용한다. 그러나 실제 데이터가 고밀도이거나 아이템 수가 많을 경우, 동일 아이템에 대한 다수의 경로가 형성되어 CP‑Tree(Conditional Pattern Tree) 생성이 빈번해지고, 이는 메모리 오버헤드와 재귀 호출에 따른 시간 복잡도를 급격히 증가시킨다.

본 논문은 이러한 문제점을 해소하기 위해 세 가지 핵심 개선점을 제시한다. 첫째, 헤더 테이블을 ‘수정 헤더 테이블(modified header table)’로 재구성하여 각 아이템에 대한 빈도와 트리 내 위치 정보를 압축 저장한다. 기존 헤더 테이블이 단순히 아이템‑노드 리스트를 유지하는 반면, 수정 헤더 테이블은 아이템별로 가장 빈번한 경로를 우선적으로 연결하고, 비활성 노드에 대한 포인터는 제거함으로써 탐색 비용을 최소화한다.

둘째, ‘스페어 테이블(spare table)’을 도입한다. 스페어 테이블은 FP‑트리 삽입 과정에서 트리 깊이가 제한을 초과하거나, 특정 아이템이 이미 포화된 경우 해당 아이템을 임시 저장하는 버퍼 역할을 한다. 이렇게 함으로써 트리 구조가 과도하게 확장되는 것을 방지하고, 메모리 사용량을 일정 수준 이하로 유지한다. 스페어 테이블에 저장된 아이템은 후속 단계에서 별도의 정렬·압축 과정을 거쳐 최종 빈번 아이템 집합에 통합된다.

셋째, MFI 알고리즘을 결합한다. MFI는 Maximal Frequent Itemset을 직접 탐색함으로써 하위 집합을 중복 계산하지 않는다. 수정 헤더 테이블과 스페어 테이블에서 추출된 후보 아이템 집합을 입력으로 받아, 재귀적 탐색 대신 비트마스크 기반의 효율적인 서브셋 검증을 수행한다. 이 과정에서 불필요한 후보 생성이 원천 차단되며, 최종 연관 규칙은 최소 신뢰도와 지원도 기준에 따라 바로 도출된다.

실험 결과는 제안 기법이 기존 FP‑Growth와 Apriori 대비 메모리 사용량을 평균 35% 절감하고, 실행 시간은 데이터 규모가 10배 증가해도 2배 이하로 증가한다는 점을 보여준다. 특히, 고차원(아이템 수 > 500) 데이터셋에서 CP‑Tree 생성 횟수가 70% 이상 감소함을 확인하였다. 이러한 성능 향상은 수정 헤더 테이블의 효율적인 포인터 관리와 스페어 테이블의 동적 버퍼링, 그리고 MFI 기반의 후보 집합 최소화가 상호 보완적으로 작용한 결과로 해석된다.

요약하면, 본 논문의 개선형 FP‑트리 구조는 후보 집합 생성 없이도 빈번 아이템 집합을 정확히 추출하며, 메모리와 시간 복잡도 측면에서 기존 방법들을 크게 능가한다. 향후 연구에서는 스페어 테이블의 동적 크기 조절 알고리즘과 분산 환경에서의 헤더 테이블 동기화 메커니즘을 추가로 탐색할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)