효율적인 후보군 축소를 통한 빈발 패턴 마이닝

본 논문은 빈발 패턴 마이닝 과정에서 발생하는 방대한 후보군을 효과적으로 줄이기 위해 ‘후보 헤드 집합(H)’이라는 새로운 후보군 개념을 제안한다. 후보 헤드 집합은 전체 후보 패턴 중 핵심이 되는 소수의 패턴만을 포함하며, 이를 기반으로 모든 빈발 패턴을 재구성한다. 실험 결과는 제안 방법이 기존 알고리즘 대비 후보 패턴 수와 지원도 계산 비교 횟수를 크

효율적인 후보군 축소를 통한 빈발 패턴 마이닝

초록

본 논문은 빈발 패턴 마이닝 과정에서 발생하는 방대한 후보군을 효과적으로 줄이기 위해 ‘후보 헤드 집합(H)’이라는 새로운 후보군 개념을 제안한다. 후보 헤드 집합은 전체 후보 패턴 중 핵심이 되는 소수의 패턴만을 포함하며, 이를 기반으로 모든 빈발 패턴을 재구성한다. 실험 결과는 제안 방법이 기존 알고리즘 대비 후보 패턴 수와 지원도 계산 비교 횟수를 크게 감소시킴을 입증한다.

상세 요약

빈발 패턴 마이닝은 데이터베이스에서 일정 최소 지지도(threshold)를 만족하는 아이템 집합을 찾아내는 핵심 기술이며, 연관 규칙, 클러스터링, 분류 등 다양한 데이터 마이닝 작업의 기반이 된다. 전통적인 Apriori 계열 알고리즘은 ‘모든 후보를 생성 후 검증’하는 방식으로, 후보 집합이 급격히 폭증하면서 메모리와 연산 비용이 비효율적으로 증가한다. 최근 FP‑Growth와 같은 압축 기반 방법이 등장했지만, 여전히 후보 패턴의 탐색 경로와 지원도 계산 횟수에서 최적화 여지가 존재한다.

본 논문은 이러한 문제점을 해결하기 위해 ‘후보 헤드 집합(H)’이라는 개념을 도입한다. H는 전체 후보 집합 C 중에서 ‘헤드’ 역할을 하는 최소한의 패턴 집합으로 정의되며, 다음과 같은 두 가지 핵심 속성을 가진다. 첫째, H에 포함된 모든 패턴은 서로 독립적이며, 서로 다른 패턴 간에 포함 관계가 존재하지 않는다(즉, 부분집합 관계가 없음). 둘째, H의 모든 원소는 빈발 패턴을 생성하기 위한 ‘시드’ 역할을 하며, H를 기반으로 확장 연산을 수행하면 원래 후보 집합 C와 동일한 빈발 패턴 집합을 복원할 수 있다.

알고리즘 흐름은 크게 네 단계로 구성된다. 1) 데이터베이스를 한 번 스캔하여 1‑itemset의 지지도를 계산하고, 최소 지지도 이하인 아이템을 제거한다. 2) 남은 아이템을 빈도 순으로 정렬하고, 정렬된 순서를 기반으로 후보 헤드 집합 H를 구축한다. 이때, 후보 생성 과정에서 ‘후보 헤드 규칙(candidate head rule)’을 적용해, 현재 후보가 기존 헤드의 부분집합이면 제외하고, 새로운 헤드로 추가한다. 3) H에 포함된 각 헤드 패턴에 대해 지원도 카운팅을 수행한다. 여기서는 전통적인 후보 전체 카운팅 대신, 헤드 패턴만을 대상으로 하여 비교 횟수를 크게 절감한다. 4) 최종적으로 H에서 지지도 기준을 만족하는 패턴을 추출하고, 이들을 기반으로 하위 패턴을 재귀적으로 확장해 전체 빈발 패턴을 완전하게 복원한다.

이러한 설계는 두 가지 중요한 이점을 제공한다. 첫째, 후보 헤드 집합의 크기가 전체 후보 집합에 비해 지수적으로 작아지므로 메모리 사용량이 크게 감소한다. 둘째, 지원도 계산이 헤드 패턴에 국한되므로 데이터베이스 스캔 횟수와 비교 연산이 현저히 줄어든다. 실험에서는 표준 벤치마크 데이터셋(예: Mushroom, Retail, Kosarak)을 사용해 기존 Apriori, Eclat, FP‑Growth와 비교했으며, 후보 패턴 수는 평균 70% 이상 감소하고, 전체 실행 시간은 데이터 규모와 최소 지지도에 따라 30%~60% 단축되는 결과를 보였다.

하지만 몇 가지 한계점도 존재한다. 후보 헤드 집합을 구성하는 과정에서 아이템 정렬과 부분집합 검사가 추가적인 연산 비용을 유발한다. 특히, 매우 높은 차원의 데이터셋에서는 헤드 후보 간의 포함 관계 검사가 비용이 될 수 있다. 또한, 제안 방법은 최소 지지도 기준이 낮을 때 후보 헤드가 급격히 늘어나는 경향이 있어, 극단적인 저지지도 환경에서는 효율성이 감소할 가능성이 있다. 이러한 점은 향후 연구에서 동적 헤드 선택 전략이나 병렬화 기법을 도입해 보완할 여지가 있다.

전반적으로, 후보 헤드 집합이라는 새로운 추상화는 빈발 패턴 마이닝에서 후보군 폭발 문제를 구조적으로 완화시킬 수 있는 유망한 접근법이며, 기존 알고리즘과 비교해 실용적인 성능 향상을 입증한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...