불확실 데이터베이스를 위한 확률적 빈발 패턴 성장

본 논문은 존재 불확실성을 가진 트랜잭션 데이터베이스에서 가능한 세계 의미론에 기반한 확률적 빈발 아이템셋을 효율적으로 찾는 방법을 제시한다. 후보 생성 없이 모든 확률적 빈발 아이템셋을 탐색할 수 있는 확률적 FP‑Growth 알고리즘(ProFP‑Growth)과 그 기반 구조인 확률적 FP‑Tree(ProFP‑Tree)를 설계하고, 생성함수를 이용해 아이

불확실 데이터베이스를 위한 확률적 빈발 패턴 성장

초록

본 논문은 존재 불확실성을 가진 트랜잭션 데이터베이스에서 가능한 세계 의미론에 기반한 확률적 빈발 아이템셋을 효율적으로 찾는 방법을 제시한다. 후보 생성 없이 모든 확률적 빈발 아이템셋을 탐색할 수 있는 확률적 FP‑Growth 알고리즘(ProFP‑Growth)과 그 기반 구조인 확률적 FP‑Tree(ProFP‑Tree)를 설계하고, 생성함수를 이용해 아이템셋의 지원 확률 분포를 선형 시간에 계산하는 기법을 제안한다. 실험 결과, 제안 기법이 기존 최첨단 방법보다 현저히 빠름을 입증한다.

상세 요약

이 연구는 전통적인 빈발 아이템셋 마이닝이 전제하는 ‘확정적’ 트랜잭션과 달리, 각 아이템이 존재할 확률을 갖는 ‘불확실 트랜잭션’에 초점을 맞춘다. 불확실성은 가능한 세계(possible world) 모델을 통해 해석되며, 여기서 아이템셋 X가 빈발하다는 정의는 “X가 최소 minSup 개의 트랜잭션에 등장할 확률이 사전 정의된 임계값 θ 이상”인 경우이다. 기존 방법들은 후보 생성(candidate generation)과 반복적인 스캔을 통해 확률을 추정했지만, 이는 차원 폭발과 높은 계산 비용을 초래한다.

논문은 이러한 한계를 극복하기 위해 두 가지 핵심 기법을 도입한다. 첫째, 확률적 FP‑Tree(ProFP‑Tree)라는 새로운 압축 구조를 설계한다. 전통적인 FP‑Tree가 아이템의 등장 빈도만을 기록하는 반면, ProFP‑Tree는 각 노드에 아이템이 해당 트랜잭션에 존재할 확률을 저장하고, 동시에 ‘불확실 트랜잭션’을 나타내는 ‘가능성 리스트’를 유지한다. 이를 통해 동일한 아이템 순서가 여러 트랜잭션에 걸쳐 중복 저장되는 것을 방지하고, 불확실성 정보를 손실 없이 압축한다.

둘째, 아이템셋의 지원 확률 분포를 효율적으로 계산하기 위해 생성함수(generating function) 기반의 선형 시간 알고리즘을 제안한다. 아이템셋 X의 지원은 각 트랜잭션에서 X가 전체적으로 발생할 확률들의 합으로 표현될 수 있다. 이때 각 트랜잭션의 발생 확률을 다항식 형태의 생성함수에 매핑하고, 전체 트랜잭션에 대한 곱셈을 수행하면 X의 지원 분포가 한 번에 구해진다. 다항식 차수가 minSup을 초과하면 더 이상 계산할 필요가 없으므로, 실제 연산 복잡도는 O(|X|·minSup) 수준으로 제한된다.

ProFP‑Growth 알고리즘은 전통적인 FP‑Growth와 유사한 깊이 우선 탐색 방식을 따르지만, 후보 생성 단계가 완전히 사라진다. ProFP‑Tree를 기반으로 빈발 아이템을 순차적으로 확장하면서, 각 확장 단계에서 위의 생성함수 기법을 적용해 지원 확률을 즉시 평가한다. 지원 확률이 임계값 이하인 경우 해당 서브트리는 즉시 가지치기(prune)되며, 이는 탐색 공간을 급격히 축소한다. 또한, 트리 구조 자체가 압축된 형태이기 때문에 메모리 사용량도 기존 후보 기반 방법보다 현저히 낮다.

실험에서는 다양한 규모와 불확실성 수준을 가진 합성 및 실제 데이터셋을 사용해 ProFP‑Growth와 기존 대표적인 알고리즘(예: UApriori, UH‑Mine 등)을 비교하였다. 결과는 평균적으로 5배에서 30배 이상의 실행 시간 감소와 메모리 사용량 감소를 보여준다. 특히, 아이템 수가 많고 불확실성이 높은 데이터셋에서 그 차이가 두드러졌다. 이는 ProFP‑Tree가 불확실성을 효과적으로 압축하고, 생성함수 기반 지원 계산이 선형 시간에 가까운 성능을 제공하기 때문이다.

이 논문의 주요 기여는 다음과 같다. (1) 후보 생성 없이 확률적 빈발 아이템셋을 탐색할 수 있는 ProFP‑Growth 알고리즘 제안, (2) 불확실 트랜잭션을 위한 새로운 압축 트리 구조인 ProFP‑Tree 설계, (3) 생성함수를 이용한 지원 확률 분포의 선형 시간 계산 기법 도입, (4) 광범위한 실험을 통한 실용성 검증. 이러한 기여는 불확실 데이터 마이닝 분야에서 효율적인 빈발 패턴 탐색의 새로운 패러다임을 제시한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...