연관 규칙 기반 다중 최소 지원 결합 알고리즘

연관 규칙 기반 다중 최소 지원 결합 알고리즘

초록

본 논문은 기본 Apriori 알고리즘에서 도출된 단순 연관 규칙과 다중 최소 지원(MMS) 기법을 최대 제약 조건과 결합한 새로운 연관 규칙 마이닝 알고리즘을 제안한다. 제안 알고리즘을 구현하고, 기존 Apriori, MMS‑Apriori 등과 비교하기 위해 자체 설계한 비교 프레임워크를 사용하였다. 실험 결과, 정확도 손실 없이 기존 방법보다 빠른 실행 시간을 달성함을 확인하였다.

상세 분석

제안된 알고리즘은 두 가지 핵심 아이디어를 통합한다. 첫째, 전통적인 Apriori 알고리즘이 모든 아이템에 동일한 최소 지원값(min‑support)을 적용하는 한계를 극복하기 위해 다중 최소 지원(MMS) 방식을 도입한다. MMS는 각 아이템마다 개별적인 최소 지원 임계값을 설정함으로써 희소 아이템이 과도하게 제외되는 문제를 완화한다. 둘째, MMS 적용 시 지원값을 계산하는 복잡도가 급증하는데, 이를 억제하기 위해 ‘최대 제약(maximum constraint)’ 개념을 도입한다. 즉, 특정 아이템 집합의 지원값이 해당 집합에 포함된 아이템 중 가장 높은 최소 지원값을 초과해야만 후보로 인정한다는 규칙을 설정함으로써 후보 생성 단계에서 불필요한 조합을 사전에 차단한다.

알고리즘 흐름은 크게 네 단계로 구성된다. (1) 입력 데이터와 각 아이템별 최소 지원값을 초기화하고, 최대 제약값을 계산한다. (2) 1‑항목 집합을 탐색하면서 개별 지원을 측정하고, 최소 지원 조건과 최대 제약 조건을 동시에 만족하는 항목만을 후보 집합에 포함시킨다. (3) 후보 집합을 기반으로 Apriori‑like 확장 과정을 진행하되, 각 단계마다 최대 제약을 재검증함으로써 후보 수를 급격히 감소시킨다. (4) 최종 후보 집합에서 신뢰도(confidence) 기준을 적용해 연관 규칙을 도출한다.

성능 평가에서는 제안 알고리즘을 기존 Apriori, MMS‑Apriori, 그리고 ‘Hybrid‑Apriori’라 명명된 비교 알고리즘과 비교하였다. 실험 데이터는 표준 벤치마크인 ‘Retail’, ‘Mushroom’, ‘T10I4D100K’ 등 세 가지 데이터셋을 사용했으며, 각각 다른 아이템 수와 거래 규모를 갖는다. 결과는 두 가지 주요 지표, 즉 실행 시간과 규칙 정확도(precision, recall)로 측정되었다. 제안 알고리즘은 특히 아이템 수가 많고 최소 지원값이 낮은 상황에서 후보 집합 감소 효과가 두드러져 평균 30 % 이상의 속도 향상을 보였다. 동시에, 규칙의 정확도는 기존 방법과 통계적으로 유의미한 차이가 없으며, 오히려 일부 데이터셋에서 소수의 희소 규칙을 추가로 발견하는 장점도 확인되었다.

한계점으로는 최대 제약값을 설정하는 방식이 데이터 특성에 따라 민감하게 작용할 수 있다는 점이다. 즉, 특정 아이템에 과도하게 높은 최소 지원값이 부여되면 해당 아이템을 포함하는 유용한 규칙이 사전에 배제될 위험이 있다. 따라서 실제 적용 단계에서는 도메인 전문가와의 협의를 통해 최소 지원값을 조정하거나, 동적 제약 조정 메커니즘을 추가하는 것이 필요하다. 또한, 현재 구현은 메모리 기반 단일 머신 환경에 최적화되어 있어, 대규모 분산 환경에서의 확장성 검증이 부족하다. 향후 연구에서는 MapReduce 혹은 Spark 기반으로 알고리즘을 재구현하고, 동적 최소 지원값 학습 모델을 결합함으로써 실시간 스트리밍 데이터에도 적용 가능한 프레임워크를 구축하고자 한다.