이중 프루닝·정렬‑프리 평균 효용 시퀀스 마이닝 알고리즘 HAUSP‑PG
초록
본 논문은 평균 효용을 기준으로 긴 시퀀스에서도 효율적으로 고평균‑효용 시퀀스 패턴을 탐색하기 위해, 프리픽스와 남은 서열을 독립적으로 정제하는 이중 프루닝 전략과 아이템 정렬 없이 상한값을 추정하는 정렬‑프리 기법을 결합한 HAUSP‑PG 알고리즘을 제안한다. 실험 결과, 기존 방법 대비 실행 시간·메모리 사용량이 크게 감소함을 보였다.
상세 분석
HAUSP‑PG는 기존 HAUSPM(High Average‑Utility Sequential Pattern Mining) 연구의 두 가지 핵심 한계를 극복한다. 첫째, 평균 효용은 전통적인 유틸리티 상한값(SWU 등)과 달리 반단조성을 갖지 않아 효과적인 프루닝이 어려웠다. 이를 해결하기 위해 저자들은 “프리픽스 프루닝(IIP)”과 “남은 서열 프루닝(LAR)”이라는 두 개의 상보적 전략을 도입하였다. 프리픽스 프루닝은 현재 탐색 중인 패턴의 앞부분에 포함된 아이템 중, 평균 효용 상한값을 초과하지 못하는 아이템을 즉시 제거함으로써 후보 공간을 급격히 축소한다. 반면, 남은 서열 프루닝은 패턴 확장 과정에서 남아 있는 서열(remaining sequence)에 대해, 해당 서열 전체가 평균 효용 상한을 만족할 가능성이 낮은 경우를 조기에 차단한다. 두 전략이 독립적으로 작동하면서도 서로 보완적으로 작용해, 특히 길이가 수백에 달하는 사이버 보안 로그나 AI 행동 시퀀스와 같은 초장기 데이터에서 탐색 효율을 크게 향상시킨다.
둘째, 기존 평균 효용 상한 추정 기법은 아이템을 내림차순 정렬하고 상위 k 개만 고려하는 “정렬‑기반” 방식이 일반적이었다. 정렬 과정은 O(n log n)의 시간 복잡도를 가지며, 시퀀스가 길어질수록 반복 정렬이 병목이 된다. HAUSP‑PG는 “정렬‑프리(overestimation) 기법”을 제안한다. 이는 각 아이템의 최대 유틸리티와 현재 패턴 길이를 이용해, 정렬 없이도 충분히 타이트한 평균 효용 상한을 계산한다. 구체적으로, 아이템별 최대 유틸리티를 사전 계산한 뒤, 남은 서열의 총 유틸리티를 현재 패턴 길이로 나누어 평균 효용 상한을 도출한다. 이 방식은 메모리 사용량을 최소화하고, 정렬에 소요되는 CPU 사이클을 완전히 제거한다.
알고리즘 흐름은 전통적인 패턴‑성장(pattern‑growth) 프레임워크를 기반으로 하며, UL‑list와 유사한 압축 리스트 구조를 활용해 데이터베이스 스캔을 최소화한다. 탐색 과정에서 프리픽스와 남은 서열에 각각 적용되는 IIP와 LAR은 상한값을 지속적으로 업데이트하면서, 불필요한 후보를 즉시 버린다. 실험에서는 실데이터(예: Kosarak, BMS‑WebView‑1)와 합성 데이터(길이 200500, 평균 유틸리티 분포 다양)에서 최소 평균 효용 임계값을 0.010.1 범위로 변동시켰으며, HAUSP‑PG는 기존 EHAUSM, HANP‑Miner 등에 비해 평균 45%~70% 빠른 실행 시간과 30%~55% 적은 메모리 사용량을 기록했다. 특히, 시퀀스 길이가 400을 초과하는 경우 정렬‑프리 상한 추정이 전체 성능 향상의 주된 요인으로 확인되었다.
이러한 설계는 사이버 위협 탐지, 사용자 행동 분석, 장기 로그 마이닝 등 길고 복잡한 시퀀스 데이터에 적용 가능하며, 평균 효용 기반의 공정한 패턴 평가와 동시에 실시간 혹은 근실시간 분석 요구를 만족시킬 수 있다. 향후 연구에서는 동적 스트림 환경에서의 인크리멘털 업데이트와, 부정적 유틸리티(손실) 모델을 포함한 확장 모델링이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기