관계 인식 순차 패턴 마이닝: RaSP 알고리즘
초록
본 논문은 이벤트 간 관계와 다중 계층형 택소노미를 동시에 고려한 순차 패턴 마이닝 문제를 정의하고, 이를 해결하기 위한 두 단계 알고리즘 RaSP를 제안한다. 첫 단계에서는 이벤트 타입만을 이용해 빈번한 타입 패턴과 모든 발생 위치를 찾고, 두 번째 단계에서는 해당 타입 패턴의 발생을 기반으로 하위 개념 수준에서 보다 구체적인 패턴을 탐색한다. 의료 데이터(항생제 처방)에 적용한 실험에서 높은 효율성과 의미 있는 패턴을 도출함을 보였다.
상세 분석
이 논문은 기존 순차 패턴 마이닝이 아이템 간의 관계나 다중 계층형 의미 구조를 무시하는 한계를 지적하고, 이벤트 타입과 관계를 각각 독립적인 택소노미로 모델링한다는 새로운 프레임워크를 제시한다. 이벤트 e는 타입 t와 k개의 타입 택소노미 Xₜ₁…Xₜₖ에 매핑되는 개념 배열 c(e)를 갖고, 두 이벤트 사이의 관계 ρₜᵢₜⱼ는 d개의 관계 택소노미 X_ρₜᵢₜⱼ₁…X_ρₜᵢₜⱼ_d에 매핑되는 개념 배열 r(eᵢ,eⱼ)로 표현된다. 이러한 정의를 통해 “관계‑인식 시퀀스”를 형식화하고, 패턴 매칭 조건을 타입 일치, 개념 서브섬션, 관계 개념 일치, 그리고 트랜잭션 구분자(시간 간격) 보존으로 명시한다.
알고리즘 RaSP는 두 단계로 구성된다. 1) 타입‑aware 단계에서는 전통적인 GSP 알고리즘을 변형하여 각 후보 패턴에 대해 모든 발생(occurrence) 정보를 수집한다. 기존 GSP는 패턴 존재 여부만 판단하지만, 여기서는 후보 검증 단계에서 MGSP‑SCC(단일 시퀀스)와 MGSP‑GCC(트랜잭션 구분자를 포함한 시퀀스)를 사용해 패턴‑시퀀스 매칭을 전면 탐색하고, 매칭이 실패하면 다음 위치로 이동하는 백트래킹 방식을 적용한다. 또한, 각 시퀀스와 패턴에 대해 타입 빈도 벡터 m_X를 사전 계산해 부정 매칭을 조기에 차단한다. 2) 개념‑aware 단계에서는 1단계에서 얻은 빈번 타입 패턴 Π_ta와 그 발생 집합 O를 이용해, 해당 발생 시퀀스들을 타입‑concept‑aware 형태(Σ_ca)로 변환한다. 변환된 시퀀스들은 모두 동일한 길이를 가지므로, 각 타입 패턴에 대해 독립적인 전통적인 빈번 패턴 마이닝(예: Apriori 기반) 문제로 환원한다. 이때 탐색 공간은 각 택소노미의 하위 레벨으로 제한되어, 루트 수준만을 고려했던 기존 방법에 비해 훨씬 풍부한 의미적 패턴을 발견한다.
복잡도 분석에서는 1단계가 기존 GSP와 동일한 O(N·L·|C|) 수준(여기서 N은 시퀀스 수, L은 평균 길이, |C|는 후보 패턴 수)이며, 발생 집합을 저장하는 추가 비용이 선형적으로 증가한다는 점을 강조한다. 2단계는 각 타입 패턴당 발생 수에 비례해 개념 레벨 탐색을 수행하므로, 전체 복잡도는 빈번 타입 패턴 수와 택소노미 깊이에 따라 결정된다. 실험에서는 의료 데이터(수천 건의 환자 기록, 20개의 이벤트 타입, 3‑4 단계의 항생제/미생물 택소노미)를 사용해 RaSP가 기존 GSP 기반 방법보다 2‑3배 빠르게 실행되면서도, 관계와 개념을 포함한 의미 있는 패턴(예: 특정 항생제와 특정 미생물 간 동시 발생)들을 도출함을 입증한다.
핵심 인사이트는 (1) 타입‑level 빈번 패턴을 먼저 추출함으로써 탐색 공간을 크게 축소하고, (2) 모든 발생 정보를 보존함으로써 하위 레벨에서 정확한 개념 매칭이 가능하다는 점이다. 또한, 관계를 대칭적이며 다중 값으로 모델링함으로써 단순 동등 관계를 넘어 복합적인 의료 행위 간 연관성을 포착한다. 이 접근법은 전자 의료 기록, 로그 데이터, 혹은 소셜 네트워크와 같이 이벤트와 그 관계가 동시에 중요한 도메인에 일반화될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기