퍼지 최장 공통 부분수열 매칭을 이용한 시계열 분석
초록
본 논문은 실수값 시계열 데이터를 기호화한 뒤 퍼지 클러스터링(Fuzzy C‑Means, FCM)으로 구간을 정의하고, 이를 기반으로 퍼지 최장 공통 부분수열(Fuzzy‑LCS) 알고리즘을 설계한다. 기존 LCS가 이산 심볼에만 적용되는 한계를 극복하고, 구간 간 유사도를 퍼지 멤버십으로 가중함으로써 잡음과 변형에 강인한 유사도 측정을 가능하게 한다. 실험 결과, 제안 방법은 기존 DTW·SAX·전통 LCS 대비 높은 매칭 정확도와 안정성을 보이며, 다양한 분야의 시계열 분석에 활용 가능함을 입증한다.
상세 분석
본 연구는 시계열 데이터의 유사성 측정을 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 시계열을 연속적인 실수값에서 제한된 수의 기호(symbol)로 추상화하는 과정이다. 기존의 Symbolic Aggregate approXimation(SAX)와 달리, 저자는 퍼지 클러스터링(Fuzzy C‑Means, FCM)을 이용해 데이터 포인트를 여러 클러스터에 동시에 소속시킨다. 각 클러스터는 ‘심볼’에 대응되며, 데이터 포인트는 각 심볼에 대한 멤버십 값(소속도)으로 표현된다. 이때 멤버십 값은 0과 1 사이의 실수이며, 한 포인트가 여러 심볼에 부분적으로 속할 수 있다. 이러한 퍼지 기호화는 전통적인 구간 기반 이산화가 초래하는 경계 효과를 완화하고, 잡음이나 작은 변동에 대한 강인성을 제공한다.
두 번째 아이디어는 퍼지 기호화된 시퀀스에 최장 공통 부분수열(Longest Common Subsequence, LCS) 개념을 적용하는 것이다. 전통적인 LCS는 두 이산 시퀀스 사이에서 정확히 일치하는 심볼만을 매칭한다. 그러나 퍼지 LCS(Fuzzy‑LCS)에서는 두 심볼 사이의 매칭 점수를 멤버십 값의 곱 또는 최소값 등으로 정의한다. 구체적으로, 시점 i와 j에 대해 심볼 a와 b의 매칭 점수는 Σ_k μ_i^k·μ_j^k 로 계산되며, 여기서 μ_i^k는 시점 i가 클러스터 k에 속할 멤버십 값이다. 이 점수는 0과 1 사이이며, 일정 임계값 τ를 초과하면 ‘유사 매칭’으로 간주한다. 따라서 완전 일치가 아니더라도 부분적인 유사성을 반영하여 LCS 길이를 확장할 수 있다.
알고리즘 흐름은 다음과 같다. (1) 입력 시계열 X와 Y를 정규화하고, 동일한 차원으로 재샘플링한다. (2) FCM을 적용해 두 시계열을 동일한 클러스터 수 c로 퍼지 기호화한다. (3) 퍼지 멤버십 행렬을 기반으로 매칭 점수 행렬 M을 구축한다. (4) 동적 프로그래밍(DP) 테이블을 사용해 전통적인 LCS 재귀식을 M의 값으로 가중하여 최적 경로를 찾는다. (5) 최종 매칭 길이와 정규화된 유사도 지표를 산출한다.
이 접근법의 장점은 크게 세 가지이다. 첫째, 퍼지 기호화는 데이터의 연속성을 보존하면서도 이산화의 계산 효율성을 유지한다. 둘째, 매칭 점수에 멤버십 가중치를 도입함으로써 작은 변형, 시간 지연, 스케일 변동 등에 대해 유연하게 대응한다. 셋째, DP 기반 구현이 O(N·M) 시간 복잡도를 유지하므로 대규모 시계열에도 적용 가능하다.
실험에서는 인공적으로 생성한 가우시안 노이즈가 섞인 시계열, 실제 금융 가격 데이터, 그리고 의료 분야의 ECG 신호를 대상으로 기존 DTW(Dynamic Time Warping), SAX‑LCS, 그리고 전통 LCS와 비교하였다. 평가 지표는 매칭 정확도(ground‑truth 패턴 회수), 정밀도·재현율, 그리고 계산 시간이다. 결과는 퍼지 LCS가 특히 노이즈 비율이 20 % 이상인 경우에 매칭 정확도가 10 %~15 % 향상되는 것을 보여준다. 또한, 계산 시간은 SAX‑LCS와 동등하거나 약간 높은 수준에 머물렀으며, 이는 퍼지 멤버십 계산이 추가적인 비용을 발생시키지만 DP 단계에서는 동일한 복잡도를 유지하기 때문이다.
한계점으로는 클러스터 수 c와 임계값 τ의 선택이 결과에 민감하게 작용한다는 점이다. 저자는 교차 검증을 통한 파라미터 튜닝 방법을 제시했지만, 자동화된 파라미터 최적화 기법이 추가로 필요하다. 또한, 다변량 시계열에 대한 확장은 아직 다루지 않았으며, 향후 연구에서는 다차원 퍼지 클러스터링과 다중 시퀀스 LCS 확장이 기대된다.
종합적으로, 본 논문은 퍼지 클러스터링과 최장 공통 부분수열을 결합한 새로운 시계열 유사도 측정 프레임워크를 제안함으로써, 기존 이산 기반 방법들의 한계를 보완하고, 잡음·변형에 강인한 매칭을 실현한다는 점에서 의미 있는 기여를 한다.