우선순위 기반 베이지안 분류를 활용한 구간 인코딩 시계열 마이닝
초록
본 논문은 사용자 정의 우선순위를 반영한 가중치 아이템을 구간 인코딩한 시계열 데이터베이스에 나이브 베이즈 분류기를 적용하여 효과적인 시간 규칙을 도출하는 방법을 제안한다. 텔레콤 고충 데이터 실험을 통해 제안 기법의 실용성을 검증하였다.
상세 분석
본 연구는 시계열 데이터 마이닝에서 두 가지 핵심 문제, 즉 시간 구간의 효율적 표현과 아이템 중요도에 따른 가중치 부여를 동시에 해결하고자 한다. 먼저, 원시 로그 데이터를 ‘시작‑종료’ 시간 쌍으로 구간 인코딩함으로써 전통적인 트랜잭션 기반 마이닝이 갖는 시간 순서 손실을 최소화한다. 구간 인코딩은 각 레코드가 (아이템, 시작시간, 종료시간, 가중치) 형태로 변환되는 과정을 포함한다. 여기서 가중치는 사용자가 사전에 정의한 우선순위 매트릭스에 따라 할당되며, 이는 아이템의 비즈니스 가치나 심각도 등을 반영한다.
다음 단계에서는 나이브 베이즈(Naïve Bayes) 분류기를 적용한다. 베이즈 정리는 P(C|X)=P(X|C)P(C)/P(X) 형태로, 여기서 C는 시간 규칙(예: “고객 불만이 특정 구간에 집중”)이고 X는 가중치가 부여된 아이템 집합이다. 나이브 베이즈는 조건부 독립성을 가정하여 P(X|C)를 각 아이템의 개별 확률 곱으로 단순화한다. 이때 가중치는 확률 계산에 직접 곱해져, 높은 우선순위 아이템이 규칙 생성에 더 큰 영향을 미치게 된다. 결과적으로, 기존의 빈도 기반 연관 규칙보다 사용자 관점에서 의미 있는 규칙을 도출할 수 있다.
알고리즘 흐름은 (1) 데이터 전처리 및 구간 인코딩, (2) 아이템 가중치 매핑, (3) 베이즈 학습을 통한 사후 확률 계산, (4) 사후 확률이 임계값을 초과하는 규칙을 추출, (5) 추출된 규칙을 우선순위 별로 정렬 및 시각화의 순서로 진행된다. 시간 복잡도는 구간 인코딩 단계에서 O(N) (N은 레코드 수), 베이즈 학습 단계에서 O(M·K) (M은 아이템 종류, K는 클래스 수)이며, 전체 프로세스는 선형에 가깝게 확장 가능하다.
실험에서는 텔레콤 시스템의 고객 고충 데이터베이스(수십만 건)를 대상으로, 기존 FP‑Growth 기반 연관 규칙과 비교하였다. 가중치 적용 후 규칙의 정밀도와 재현율이 각각 평균 12%와 9% 향상되었으며, 특히 고우선순위 아이템(예: “서비스 중단”)에 대한 탐지율이 크게 증가하였다. 또한, 베이즈 분류기의 사후 확률 임계값을 조정함으로써 규칙의 개수와 품질 사이의 트레이드오프를 유연하게 제어할 수 있음을 확인하였다.
한계점으로는 조건부 독립성 가정이 실제 데이터에서 위배될 가능성이 있으며, 가중치 설정이 주관적이라는 점이다. 이를 보완하기 위해 향후 연구에서는 베이즈 네트워크와 같은 구조적 확률 모델을 도입하고, 사용자 피드백을 통한 동적 가중치 학습 메커니즘을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기