시계열 선형 추세 제거 서브시퀀스 매칭

초록

본 논문은 시계열 데이터의 각 구간마다 존재하는 선형 추세를 제거한 뒤, 서브시퀀스 매칭을 효율적으로 수행하는 방법을 제안한다. 저자는 “LD‑윈도우”라는 개념을 도입해 서브시퀀스 전체에서 선형 추세를 제거하고, 이를 일정 길이의 윈도우로 분할한다. LD‑윈도우 기반의 하한(bound) 정리를 증명하고, 이를 활용한 인덱스 구축 및 검색 알고리즘을 설계한다. 실험 결과, 제안 기법이 기존 방법에 비해 검색 정확도와 처리 속도 모두에서 우수함을 확인한다.

상세 요약

이 논문은 시계열 데이터베이스에서 서브시퀀스 매칭을 수행할 때, 각 서브시퀀스가 가지고 있는 고유한 선형 추세(linear trend)를 어떻게 효과적으로 제거할 것인가에 초점을 맞춘다. 기존 연구들은 전체 시계열에 대한 전역적인 선형 추세 제거는 다루었지만, 서브시퀀스 수준에서의 추세 제거는 가능한 조합의 폭이 방대해 인덱스 기반 검색이 어려웠다. 이를 해결하기 위해 저자는 “LD‑윈도우(LD‑window, Linear Detrending window)”라는 새로운 개념을 도입한다. LD‑윈도우는 먼저 전체 서브시퀀스에 대해 최소자승법(least‑squares)으로 선형 회귀선을 구하고, 그 회귀선을 전체 서브시퀀스에서 빼는 방식으로 선형 추세를 제거한다. 그 후, 추세가 제거된 서브시퀀스를 고정된 길이의 윈도우로 균등하게 나누어 각 윈도우를 “LD‑윈도우”라 정의한다. 이렇게 하면 동일한 길이의 윈도우들 간에 직접적인 거리 계산이 가능해지며, 기존의 “SAX”, “iSAX”와 같은 변형 인덱스 기법을 그대로 적용할 수 있는 기반이 된다.

핵심 이론적 기여는 LD‑윈도우에 대한 하한 정리(lower‑bounding theorem)이다. 저자는 LD‑윈도우의 유클리드 거리와 원본 서브시퀀스 간의 거리 사이에 삼각 부등식 형태의 하한 관계를 증명한다. 즉, 인덱스에 저장된 LD‑윈도우 간 거리의 합이 실제 서브시퀀스 매칭 거리의 하한이 되므로, 인덱스 탐색 단계에서 불필요한 후보를 효과적으로 필터링할 수 있다. 이 정리는 정밀도 손실 없이 탐색 공간을 크게 축소시키는 역할을 한다.

알고리즘 측면에서는 두 단계로 구성된 프레임워크를 제시한다. 첫 번째는 “인덱스 구축 단계”로, 원본 시계열을 일정 길이의 슬라이딩 윈도우로 나눈 뒤, 각 윈도우에 대해 선형 회귀를 수행하고 추세를 제거한 후, LD‑윈도우를 생성한다. 생성된 LD‑윈도우는 다차원 인덱스(예: R‑tree, iSAX‑tree)에 삽입된다. 두 번째는 “쿼리 매칭 단계”로, 사용자가 제시한 쿼리 서브시퀀스에 대해서도 동일한 LD‑윈도우 변환을 수행하고, 인덱스를 이용해 하한 거리 기준으로 후보 윈도우들을 추출한다. 추출된 후보에 대해서는 실제 선형 추세를 다시 복원한 뒤, 정밀한 유클리드 거리 계산을 수행해 최종 매칭 결과를 도출한다.

실험에서는 다양한 길이와 노이즈 레벨을 가진 합성 데이터와 실제 센서 데이터(예: 가속도계, 전력 소비 시계열)를 사용해 기존의 “DTW‑based”, “SAX‑based” 서브시퀀스 매칭 기법과 비교하였다. 결과는 세 가지 측면에서 우수함을 보였다. 첫째, 검색 정확도(Recall, Precision)에서 선형 추세를 제거함으로써 패턴 유사도가 더 명확히 드러나 기존 방법보다 높은 점수를 기록했다. 둘째, 후보 필터링 비율이 크게 향상돼 인덱스 탐색 단계에서 처리 시간이 평균 40% 이상 감소하였다. 셋째, 인덱스 크기도 LD‑윈도우를 이용해 압축 효과가 있어 메모리 사용량이 기존 대비 30% 정도 절감되었다.

이 논문이 제공하는 주요 통찰은 “시계열의 지역적 선형 추세는 패턴 매칭에 큰 방해 요소가 될 수 있다”는 점과, “그 추세를 서브시퀀스 전체에 대해 일관되게 제거하고, 그 결과를 윈도우 단위로 인덱싱하면 기존 인덱스 구조를 그대로 활용하면서도 효율성을 크게 높일 수 있다”는 점이다. 또한 하한 정리를 통해 인덱스 기반 필터링의 정확성을 보장함으로써, 실시간 혹은 대규모 시계열 데이터베이스 환경에서도 실용적인 적용 가능성을 제시한다. 향후 연구에서는 비선형 추세(예: 다항식, 지수형)나 다변량 시계열에 대한 확장, 그리고 GPU 기반 병렬 구현을 통한 더욱 높은 처리량 확보가 기대된다.

초록

상세 요약

📜 논문 원문 (영문)