비정상 시계열을 위한 새로운 서러게이트 데이터 생성법
초록
본 논문은 비정상적인 선형 확률 과정에 비선형 정적 변환이 적용된 경우를 귀무가설로 설정하고, 데이터의 자기상관, 진폭 분포, 그리고 국부 평균·분산을 모두 보존하는 서러게이트 시계열을 생성하는 알고리즘을 제안한다. 기존 방법이 비정상 데이터에서 실패하는 사례를 보여주며, 제안 기법이 합성 및 실제 기후·뇌전극 데이터에서 선형·비선형 구분에 성공함을 입증한다.
상세 분석
서러게이트 데이터 기법은 원시 시계열이 “선형·가우시안 잡음” 혹은 “선형·비가우시안 잡음”으로부터 생성되었다는 귀무가설을 검증하기 위해 널리 활용된다. 전통적인 방법인 AAFT(Amplitude Adjusted Fourier Transform)와 IAAFT(Iterative AAFT)는 전체 시계열의 파워 스펙트럼(즉, 자기상관)과 진폭 분포를 보존하도록 설계되었으며, 데이터가 정규분포를 따를 경우 진폭 보정이 필요 없다는 장점이 있다. 그러나 이러한 방법은 시계열이 시간에 따라 평균이나 분산이 변하는 비정상(non‑stationary) 특성을 가질 때, 국부적인 통계 구조를 파괴한다는 근본적인 한계가 있다.
최근 제안된 비정상 선형 과정용 서러게이트 알고리즘은 국부 평균과 분산을 보존하도록 설계되었지만, 여전히 진폭 분포가 가우시안이라고 가정한다. 실제 자연·생물 현상에서는 비가우시안 분포(예: 꼬리가 두꺼운 분포, 다중 피크)를 보이는 경우가 흔하며, 이러한 가정 위배는 귀무가설 검정의 신뢰성을 크게 저하시킨다.
본 논문이 제시하는 새로운 알고리즘은 “비정상 선형 과정에 비선형 정적 변환이 적용된 경우”를 귀무가설로 설정한다. 핵심 아이디어는 다음과 같다. 첫째, 원시 시계열을 일정 길이의 윈도우로 슬라이딩하면서 각 구간의 평균 μ(t)와 표준편차 σ(t)를 추정한다. 둘째, 원시 데이터의 진폭 순서를 보존하면서 전체 데이터의 누적 분포함수(CDF)를 이용해 목표 진폭 분포에 맞는 값으로 매핑한다(rank‑order 변환). 셋째, 매핑된 값에 각 구간의 μ(t), σ(t)를 역으로 적용하여 국부 통계량을 복원한다. 마지막으로, 전체 시계열에 대해 푸리에 변환을 수행하고 위상만을 무작위 교환한 뒤 역변환함으로써 원본의 파워 스펙트럼을 유지한다. 이 과정을 반복(iterative)함으로써 자기상관, 진폭 분포, 국부 평균·분산이 동시에 보존되는 서러게이트 시계열을 얻는다.
알고리즘의 수학적 정당성은 다음과 같이 설명된다. 푸리에 변환 단계는 시계열을 선형 시불변 시스템의 입력으로 보는 관점에서, 시스템의 임펄스 응답(즉, 자기상관)과 동일한 스펙트럼을 유지한다. 국부 통계량 보존 단계는 비정상성을 모델링하는 비선형 변환 f(·)을 역으로 적용하는 것으로 볼 수 있다. 즉, 원시 데이터 x(t)=f(s(t))·σ(t)+μ(t) 형태라면, 서러게이트는 ŝ(t)≈s(t)·(σ̂(t)/σ(t))+ (μ̂(t)-μ(t))·(σ̂(t)/σ(t)) 형태를 재구성한다. 여기서 σ̂(t), μ̂(t)는 서러게이트의 국부 통계량이며, f(·) 자체는 순위 매핑을 통해 보존된다. 따라서 귀무가설 “x(t)는 비정상 선형 과정 s(t)의 비선형 정적 변환”이 충족될 경우, 생성된 서러게이트와 원본은 통계적으로 구별되지 않는다.
실험에서는 (1) 정적 비선형 변환이 적용된 AR(1) 과정, (2) 시간에 따라 변하는 분산을 갖는 선형 과정, (3) 로지스틱 맵과 같은 결정론적 비선형 과정 등 세 가지 합성 데이터 세트를 사용하였다. 기존 AAFT/IAAFT는 (1)에서는 성공했지만 (2)와 (3)에서는 위조된 비선형성을 검출하지 못했다. 반면 제안 알고리즘은 모든 경우에서 원본과 서러게이트 사이에 차이가 없음을 보였으며, 비선형성 검정(예: 비선형 예측 오류, 상호정보량)에서는 원본이 유의미하게 더 높은 비선형 지표를 나타냈다.
실제 데이터 적용 사례로는 (a) 월별 전 지구 평균 기온 시계열(1880‑2015)과 (b) 마우스 뇌의 미세 전극 기록(Micro Electrode Recording, MER) 중 짧은 구간을 분석하였다. 기온 데이터는 장기적인 상승 추세와 계절 변동이라는 비정상성을 보이며, 기존 서러게이트는 비선형성을 과소평가했다. 제안 방법을 적용한 결과, 서러게이트와 원본 사이에 비선형 예측 오류가 유의하게 차이났으며, 이는 기후 시스템 내에 비선형 피드백 메커니즘이 존재함을 시사한다. MER 데이터에서도 짧은 구간이 비정상적 변동성을 보였음에도 불구하고, 제안 서러게이트는 국부 평균·분산을 보존하면서도 비선형성 검정에서 원본이 유의미하게 더 높은 복잡성을 나타냈다.
결론적으로, 본 논문은 비정상 시계열 분석에 있어 기존 서러게이트 방법이 갖는 구조적 한계를 명확히 지적하고, 진폭 분포와 국부 통계량을 동시에 보존하는 새로운 알고리즘을 제시한다. 이 방법은 기후 과학, 신경생리학, 금융 데이터 등 시간에 따라 통계적 특성이 변하는 다양한 분야에서 비선형 동역학을 검증하는 강력한 도구가 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기