신뢰도 기반 분할을 활용한 고효용 연속 규칙 마이닝

신뢰도 기반 분할을 활용한 고효용 연속 규칙 마이닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연속 규칙 마이닝에서 동일한 아이템 시퀀스로부터 발생하는 중복 유틸리티 계산을 최소화하기 위해, 신뢰도(Confidence)를 기준으로 분할점을 사전에 결정하고, 한 번의 유틸리티 계산으로 모든 파생 규칙을 동시에 생성하는 RSC 알고리즘을 제안한다. 유틸리티‑링크 테이블과 새로운 상한값인 Reduced Remaining Utility(RRU)를 도입해 탐색 공간을 크게 축소하고, 실험을 통해 기존 최첨단 기법 대비 평균 50% 이상의 실행 시간 감소를 입증하였다.

상세 분석

RSC는 기존 HUSRM(High‑Utility Sequential Rule Mining) 연구가 주로 LRE(Left/Right Expansion) 전략에 의존해 왔음에도 불구하고, 동일 아이템 시퀀스가 여러 규칙에 재사용될 때 발생하는 중복 유틸리티 계산을 근본적으로 해결하지 못한다는 문제점을 지적한다. 이를 극복하기 위해 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, “신뢰도‑가이드 분할(confidence‑guided segmentation)”을 도입하여, 후보 시퀀스의 모든 가능한 분할점에 대해 사전에 서포트(지원도)를 계산하고, 이를 기반으로 각 분할점의 신뢰도를 미리 추정한다. 신뢰도가 최소 임계값을 만족하는 분할점만을 선택함으로써, 불필요한 규칙 생성을 원천 차단한다. 둘째, 한 시퀀스에 대해 한 번만 유틸리티를 계산하고, 그 결과를 해당 시퀀스에서 파생되는 모든 규칙에 공유한다. 이를 구현하기 위해 “유틸리티‑링크 테이블(utility‑linked table)”이라는 인덱스 구조를 설계했으며, 이 테이블은 각 아이템의 위치와 해당 아이템이 포함된 투영 데이터베이스를 포인터로 연결한다. 결과적으로 후보 시퀀스 생성 단계에서 데이터베이스 스캔을 최소화하고, 메모리 사용량도 효율적으로 관리한다.

또한, 기존 상한값인 SEU(Estimated Sequence Utility)나 LEEU(Left Expansion Estimated Utility) 등은 중복 아이템이 존재할 경우 과도하게 느슨해지는 경향이 있었다. 이를 보완하기 위해 RSC는 “Reduced Remaining Utility(RRU)”라는 새로운 상한값을 정의한다. RRU는 현재 시퀀스의 남은 아이템 중 중복을 고려해 실제 가능한 최대 유틸리티를 보다 정확히 추정한다. 이와 함께, RRU 기반의 프루닝 규칙을 적용해 탐색 트리의 가지치기 효율을 크게 향상시켰다.

실험에서는 여러 실제 데이터셋(예: e‑commerce 거래 로그, 의료 기록, 사이버 보안 로그)과 합성 데이터셋을 사용해 RSC와 기존 대표 알고리즘(TotalSR, USER, US‑Rule 등)을 비교하였다. 평가 지표는 실행 시간, 메모리 사용량, 발견된 고유틸리티 규칙 수이며, RSC는 평균 45~55%의 실행 시간 단축과 메모리 절감 효과를 보였다. 특히 중복 아이템 비율이 높은 데이터셋에서 RRU 기반 프루닝이 큰 효과를 발휘해, 기존 방법이 탐색에 실패하거나 시간 초과를 일으키는 경우에도 안정적으로 결과를 도출했다.

이러한 설계는 규칙 생성 단계에서 완전성을 보장한다는 이론적 증명과 함께, 실험적 검증을 통해 실제 적용 가능성을 입증한다. 따라서 RSC는 고유틸리티 연속 규칙 마이닝 분야에서 중복 계산을 최소화하고, 대규모 데이터에 대한 확장성을 확보하는 데 중요한 진전을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기