정지시점 기반 이진 시계열 예측 방법

이 논문은 정상·에르고딕 이진 시계열 {X_n}_{n∈ℤ} 에 대해 미래값을 추정하는 두 가지 전통적 문제를 검토한다. 첫 번째는 과거 무한히 뒤까지 관측한 데이터로부터 현재 시점의 조건부 확률을 추정하는 역방향 문제이며, Ornstein이 제시한 복잡한 스킴을 통해 거의 surely 수렴이 가능함을 알려준다. 두 번째는 현재까지 관측된 유한한 데이터 {X_0,…,X_n} 로부터 다음 값 X_{n+1} 의 확률을 추정하는 전방 예측 문제이다. Bailey와 Ryabko는 모든 n에 대해 일관적인 추정기가 존재하지 않음을 증명했으며, 이는 “예측을 언제든지 할 수 있다”는 기대를 깨뜨린다. 저자들은 이 부정적 결과를 회피하기 위해 “정지시점”이라는 개념을 도입한다. 정지시점 λ_n 은 과거에 나타난 길이 n 블록이 현재 시점 이후에 처음으로 재등장하는 시점으로 정의된다. 구체적으로 ζ_0=0 로 시작하고, η_k = min{t>0 : X_{ζ_{k-1}+t}^{ζ_{k-1}+t+k-1}=X_{ζ_{k-1}}^{ζ_{k-1}+k-1}} 로 정의한 뒤 ζ_k=ζ_{k-1}+η_k 로 새로운 정지시점을 만든다. 이렇게 하면 ζ_k 는 단조 증가하고, 각 단계마다 새로운 블록이 과거와 일치하는 순간을 포착한다. 예측값은 g_k = (1/k)∑_{j=0}^{k-1} X_{ζ_j+1} 로 정의한다. 이는 ζ_j 시점 직후 관측값들의 평균이며, 실제 조건부 확률 P(X_{ζ_j+1}=1 | X_{0}^{ζ_j}) 의 샘플 평균이다. 저자는 Γ_j = X_{ζ_j+1} - P(X_{ζ_j+1}=1 | X_{-∞}^{ζ_j}) 라는 마팅게일 차이열을 도입하고, Azuma의 부등식을 이용해 (1/k)∑_{j=0}^{k-1} Γ_j → 0 (a.s.) 를 증명한다. 따라서 g_k 와 (1/k)∑_{j=0}^{k-1} P(X_{ζ_j+1}=1 | X_{0}^{ζ_j}) 의 차이가 사라진다. 핵심 가정은 조건부 확률 함수 p(x_{-∞}) = P(X_1=1 | X_{-∞}=x_{-∞}) 가 거의 surely 연속이라는 점이다. 연속성은 집합 C⊂X^{*}_{-} 에 대해 P(C)=1 이며, d^* 메트릭 아래에서 연속함을 의미한다. 정지시점 ζ_k 가 커짐에 따라 과거 전체와의 거리 d^*(\tilde X_{-∞}, (X_{ζ_k-k+1}^{ζ_k})) 가 0 으로 수렴한다는 사실을 이용해 p(·) 의 값도 수렴한다. 따라서 g_k → P( \tilde X_1=1 | \tilde X_{-∞}) (a.s.) 가 된다. 여기서 \tilde X_n 은 ζ_n 시점에 맞춰 재배열된 시계열이며, Lemma 1에 의해 원본 시계열과 동일한 분포를 가진다. 정지시점의 성장률에 대한 정량적 분석도 제공한다. 엔트로피율 H = lim_{n→∞} - (1/n) E

정지시점 기반 이진 시계열 예측 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기