컨텍스트 변동 분석 기반 가변 윈도우 빈발 항목 집합 마이닝

컨텍스트 변동 분석 기반 가변 윈도우 빈발 항목 집합 마이닝

초록

본 논문은 데이터 스트림에서 빈발 항목 집합을 탐색하기 위해 컨텍스트 변동 분석을 이용한 가변 윈도우 기법을 제안한다 윈도우 크기를 동적으로 조정함으로써 메모리 사용을 최소화하고 연산 효율을 높인다 또한 지원도(coverage)를 윈도우 수준에서 고정하여 빈발과 비빈발을 명확히 구분한다

상세 분석

본 연구는 스트리밍 트랜잭션의 연속적인 특성 변화, 즉 컨셉 드리프트를 실시간으로 감지하고 이에 맞춰 윈도우 크기를 조절하는 메커니즘을 설계하였다 먼저 입력 스트림을 고정된 크기의 초기 윈도우와 가변 크기의 보조 윈도우 두 단계로 분할한다 초기 윈도우는 최소한의 데이터 샘플을 확보하여 기본적인 빈발 항목 집합을 산출한다 보조 윈도우는 새로운 트랜잭션이 도착할 때마다 현재 윈도우와의 컨텍스트 차이를 측정한다 여기서 컨텍스트 차이는 항목 출현 빈도의 분포 차이, 즉 코사인 유사도 혹은 제이카드 거리와 같은 통계적 지표를 활용한다 차이가 사전에 정의된 임계값을 초과하면 컨셉이 변했다고 판단하고 기존 윈도우를 폐쇄한다 동시에 새로운 윈도우를 시작한다 이 과정에서 윈도우 크기는 자연스럽게 데이터 흐름의 변동성에 맞추어 확대 혹은 축소된다 또한 논문은 윈도우 수준에서 지원도(coverage)를 고정함으로써 빈발 항목 집합의 정의를 일관되게 유지한다 기존의 스트림 마이닝 기법은 전체 스트림에 대한 전역 지원도를 사용하거나 고정된 슬라이딩 윈도우를 적용해 메모리와 연산량이 급증하는 문제를 안고 있었다 반면 제안된 MFI‑VWS‑CVA는 윈도우마다 독립적인 지원도 기준을 적용하므로 메모리 사용량을 현저히 감소시킨다 특히 메모리 제한이 엄격한 IoT 디바이스나 엣지 컴퓨팅 환경에서 유리하다 알고리즘 흐름은 다음과 같다 1) 초기 윈도우 형성 2) 신규 트랜잭션 수신 시 컨텍스트 변동 분석 3) 변동이 임계값 이하이면 보조 윈도우에 추가 4) 변동이 임계값 초과이면 현재 윈도우 종료 및 빈발 항목 집합 출력 5) 새로운 윈도우 시작 후 단계 1로 되돌아감 이때 빈발 항목 집합의 증분 업데이트는 FP‑Tree 기반 구조를 변형한 인크리멘털 트리를 사용한다 이를 통해 기존 FP‑Growth의 재구축 비용을 회피한다 또한 실험에서는 합성 스트림과 실제 웹 로그 데이터를 이용해 기존 고정 윈도우 기반 알고리즘인 SW‑Apriori, Stream‑FP와 비교하였다 결과 MFI‑VWS‑CVA는 메모리 사용량이 30 % 이하로 감소하고 처리량은 1.5배 이상 향상되었다 특히 급격한 컨셉 드리프트가 발생하는 경우에도 정확도 손실이 미미하였다 이러한 장점은 실시간 이상 탐지, 온라인 추천 시스템 등 빠른 응답이 요구되는 응용 분야에 직접적인 활용 가치를 제공한다