복잡 시계열을 위한 순열‑젠슨‑섀넌 거리: 빠르고 강인한 기호화 도구
초록
본 논문은 Bandt‑Pompe 순열 기호화를 이용해 두 시계열의 확률 분포를 만든 뒤, 그 분포 간의 젠슨‑섀넌 발산의 제곱근을 거리로 정의한다. 이 순열‑젠슨‑섀넌 거리(PJSD)는 계산이 간단하고 노이즈·아웃라이어에 강인하며, 데이터 규모가 커도 선형 시간 복잡도로 처리할 수 있다. 다양한 합성·실험 데이터에 적용해 동일 동역학을 가진 시계열은 거리값이 0에 수렴하고, 서로 다른 동역학을 가진 경우 큰 값을 보임을 확인하였다.
상세 분석
PJSD는 두 단계의 핵심 아이디어를 결합한다. 첫 번째는 Bandt‑Pompe(BP) 순열 기호화로, 연속된 D개의 표본을 순서에 따라 순열(ordinal pattern)으로 변환한다. 이 과정은 값 자체가 아니라 순서 관계만을 사용하므로 스케일 변환, 상수 이동, 단조 비선형 변환에 불변이며, 잡음에 대한 민감도가 낮다. 또한 D와 τ(지연)만 선택하면 되므로 전통적인 위상공간 재구성에 비해 파라미터 설정이 간단하다. 두 번째는 젠슨‑섀넌(Jensen‑Shannon, JS) 발산을 이용해 두 확률 분포 P와 Q 사이의 차이를 정량화하고, 그 제곱근 √D_JS를 거리(metric)로 채택한다. √D_JS는 0≤√D_JS≤√ln 2 범위의 진정한 거리이며, γ∈(0,½] 구간에서도 거리 성질을 유지한다는 수학적 증거가 있다.
정의상 PJSD는 P와 Q가 동일할 때 0이 되고, 서로 겹치지 않는 경우 √ln 2에 수렴한다. 실험적으로는 N(시계열 길이)이 커질수록 동일 동역학을 가진 두 시계열 간 PJSD가 N^‑½ 비율로 감소한다는 전력법칙을 확인했으며, 이는 표본 수가 늘어날수록 순열 빈도 추정이 정확해짐을 의미한다. D를 크게 하면 순열 종류가 D! 로 급증해 더 풍부한 동적 정보를 포착하지만, N≫D! 조건을 만족해야 통계적 신뢰도가 확보된다.
논문은 여러 수치 실험을 통해 PJSD의 구별 능력을 검증한다. (1) 백색 가우시안 잡음 두 개를 비교했을 때, 로그‑로그 플롯에서 선형 감소가 관찰돼 N^‑½ 스케일이 확인되었다. (2) 로지스틱 맵(혼돈)과 선형 회귀(주기) 등 결정론적 시스템을 서로 교차 비교했을 때, 동일 시스템 간 거리값은 거의 0에 가깝고, 서로 다른 시스템 간에는 √ln 2에 근접하는 큰 값이 나타났다. (3) 다중 스케일 분석을 위해 τ를 1,2,4 등으로 늘려가며, 연속적인 데이터와 샘플링 간격이 다른 경우에도 PJSD가 일관된 구분력을 보였다.
실험 데이터 적용 사례로는 심장 박동(ECG)와 뇌전도(EEG) 신호가 제시된다. 정상과 병리 상태를 각각 대표하는 레퍼런스 시계열을 미리 생성한 뒤, 대상 신호와의 PJSD를 계산해 임계값을 설정하면, 자동화된 상태 판별이 가능함을 보여준다. 특히, 아티팩트나 전극 불량 등으로 발생하는 급격한 진폭 변동에도 순열 기호화가 영향을 적게 받아, 기존 진폭 기반 거리와 비교해 더 안정적인 결과를 제공한다.
비교 분석에서는 기존의 순열 엔트로피, Hellinger 거리, 순위‑통계 기반 거리, 그리고 알파벳식 JS 거리와의 성능을 평가한다. 전반적으로 PJSD는 계산량이 O(N·D) 수준으로 가장 가볍으며, 동일·다른 동역학 구분 정확도에서도 동등하거나 우수한 결과를 보인다. 특히, 대용량 데이터(수백만 포인트)에서도 메모리 사용량이 낮아 빅데이터 환경에 적합하다.
한계점으로는 D와 τ 선택이 분석 목적에 따라 달라질 수 있다는 점이다. 너무 큰 D는 희소한 빈도 추정으로 인해 통계적 불안정을 초래하고, τ가 너무 크면 실제 동적 구조를 놓칠 위험이 있다. 또한, 순열 패턴이 완전히 균등하게 나타나는 완전 무작위 시계열에서는 거리값이 거의 일정하게 유지돼, 미세한 구조 차이를 감지하기 어려울 수 있다. 향후 연구에서는 자동 D·τ 최적화, 다변량 시계열에 대한 확장, 그리고 비정상 구간 탐지를 위한 sliding‑window PJSD 적용 방안이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기