- Title: MODE Efficient Time Series Prediction with Mamba Enhanced by Low-Rank Neural ODEs
- ArXiv ID: 2601.00920
- 발행일: 2026-01-01
- 저자: Xingsheng Chen, Regina Zhang, Bo Gao, Xingwei He, Xiaofeng Liu, Pietro Lio, Kwok-Yan Lam, Siu-Ming Yiu
📝 초록
시간 시리즈 예측은 기계 학습과 통계에서 중요한 작업으로, 금융, 의료, 기후 모델링 등 다양한 실제 세계의 응용 프로그램을 지원합니다. 시간 시리즈 예측은 비선형 동역학, 장기 종속성 및 불규칙한 샘플링 패턴과 같은 복잡한 데이터 특성을 처리해야 하므로 여전히 어려움이 있습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 Mamba 구조와 저순위 근사화를 통합하는 새로운 프레임워크인 MODE를 제안합니다.
💡 논문 해설
1. **통합적이고 효율적인 장기 시간 시리즈 예측 프레임워크:** 이 논문은 기존 방법의 한계를 해결하기 위해 Mamba 구조와 저순위 근사화를 통합한 MODE 프레임워크를 제안합니다. 이를 통해 복잡한 일련의 동역학을 효과적으로 모델링할 수 있습니다.
2. **선택적 스캔을 통한 확장 가능한 시계열 모델링:** 선택적 스캔 메커니즘은 중요한 부분에만 주목하여 계산 효율성을 크게 향상시킵니다.
3. **포괄적인 실험 평가:** 다양한 벤치마크 데이터셋에서 MODE는 트랜스포머와 상태 공간 모델 기반의 기본 모델과 비교해 우수한 성능을 보여줍니다.
시계열 예측은 기계 학습과 통계에서 중요한 작업이며, 금융, 의료, 기후 모델링, 사회 네트워크 및 도시 예측 등 다양한 실제 세계의 응용 프로그램을 지원합니다. 주요 목표는 순차적 데이터 내의 시간 종속성을 학습하여 미래 관찰치를 정확하게 예측하는 것입니다. 그러나 복잡한 특성 때문에 시계열 예측은 여전히 어려움이 있습니다. 실제 세계의 데이터는 비선형 동역학, 장기 종속성 및 불규칙한 샘플링 패턴을 보이는 경향이 있습니다.
통계적 접근법인 자기회귀 모델과 순환 신경망(RNNs)은 일반적으로 장기 종속성을 포착하거나 복잡한 시간 동역학을 모델링하는 데 어려움을 겪습니다. 최근의 발전, 특히 트랜스포머와 상태 공간 모델(SSMs)에 기반한 접근법은 순차적 데이터를 위한 향상된 모델링 능력을 보여주었습니다. 그러나 이러한 모델들은 종종 높은 계산 비용, 부족한 확장성 및 불규칙하게 샘플링된 시계열을 효과적으로 처리하는 데 어려움이 있습니다.
시계열 예측의 주요 도전 과제는 다음과 같습니다. 첫째, 장기 종속성을 모델링하는 것은 먼 관찰치가 미래 결과에 미치는 영향이 긴 시간 간격을 지니는 것을 의미합니다. 이는 재정 예측 및 기후 모델링과 같은 도메인에서 특히 중요하며 장기 추세가 예측적 성과를 강력하게 영향을 줍니다. 둘째, 의료, 센서 네트워크 및 이벤트 주도 시스템과 같은 실제 응용 프로그램에서는 불규칙한 샘플링 데이터가 일반적이며, 이는 기존의 이산 시간 모델이 균일한 시간 단계 가정을 위반하여 성능 저하를 초래합니다. 셋째, 긴 시퀀스와 고차원적 데이터에 대한 계산 효율성이 시간 및 메모리 복잡도가 시퀀스 길이와 함께 제곱적으로 증가하는 트랜스포머나 SSM 기반 모델에서 중요한 병목 현상이 됩니다. 따라서 효과적인 시간 종속성을 모델링하고 불규칙한 샘플링을 자연스럽게 수용하며, 대형 및 복잡한 데이터셋에 효율적으로 확장할 수 있는 예측 프레임워크가 필요합니다.
이러한 도전 과제를 해결하기 위해 우리는 MODE라는 새로운 통합 프레임워크를 제안합니다. 이 프레임워크는 저순위 신경ODE와 Mamba 구조를 통합하여 설계되었습니다. MODE의 설계는 기존 방법의 주요 한계를 직접적으로 해결하도록 고안되었습니다. 특히, 신경ODE의 연속 시간 속성은 불규칙하게 샘플링된 데이터를 처리하는 데 명시적인 보간이나 내삽 없이 자연스럽게 접근할 수 있는 중요한 장점이 있습니다. 의료 및 환경 모니터링과 같은 희소하거나 부정확한 샘플링을 가진 응용 프로그램에 특히 유리합니다. 또한 저순위 근사화 전략은 상태 전환의 계산 복잡도를 $`\mathcal{O}(d^2)`$에서 $`\mathcal{O}(d \cdot r)`$로 줄입니다, 여기서 $`r \ll d`$, 고차원 시퀀스 모델링을 효율적으로 수행하는 데 도움이 됩니다. 더 나아가 선택적 스캔 메커니즘은 가장 중요한 시퀀스 부문에 대한 모델의 주목을 안내하여 장기 예측 작업에서 확장성과 효율성을 크게 향상시킵니다. 이러한 구성 요소들은 MODE를 현대적인 시간 시리즈 예측에 강력하고 효율적이며 확장 가능한 솔루션으로 만듭니다.
우리의 주요 기여는 다음과 같습니다:
통합적이고 효율적인 장기 시간 시리즈 예측 프레임워크: 우리는 저순위 신경ODE와 Mamba 구조를 통합하는 원칙적인 프레임워크를 도입하여 복잡한 일련의 동역학을 효과적으로 모델링하며 수동적 특징 엔지니어링 없이 적응합니다.
확장 가능한 시계열 모델링을 위한 선택적 스캔: 우리는 중요한 시간 부문에 초점을 맞추는 세그먼트 선택적 스캔 메커니즘을 설계하여 계산 효율성과 확장을 크게 향상시키면서 높은 예측 정확도를 유지합니다.
포괄적인 실험 평가: 여러 벤치마크 데이터셋에 걸친 광범위한 실험은 MODE가 트랜스포머 기반 및 SSM 기반 기본 모델과 비교해 우수한 성능을 보여주며, 다양한 시간 시리즈 예측 작업에서 그 견고성, 확장성 및 일반화 능력을 확인합니다.
저순위 신경ODE를 통한 Mamba 구조
방법
전제
Mamba
Mamba 프레임워크는 네 가지 주요 매개변수 $`(\mathbf{A}, \mathbf{B}, \mathbf{C}, \Delta)`$를 사용하여 연속 시간 상태 공간 형태의 시퀀스-투-시퀀스 변환을 정의합니다:
여기서 $`h(t) \in \mathbb{R}^N`$는 차원이 $`N`$인 숨겨진 상태를 나타내고, $`x(t) \in \mathbb{R}^L`$는 차원이 $`L`$인 입력을 나타내며, $`y(t) \in \mathbb{R}^L`$는 차원이 $`L`$인 출력입니다. 해당 이산 시간 구현은 다음과 같습니다:
이는 밑바닥 연속 시스템에서 유용한 속성을 물려받습니다. Mamba의 중앙 혁신은 매개변수 $`\mathbf{B}`$, $`\mathbf{C}`$ 및 단계 크기 $`\Delta`$가 입력에 따라 달라지도록 만들어져 있어, 모델이 시퀀스의 특성을 동적으로 적응할 수 있습니다.
여기서 $`t = 1,\dots,T`$이고, $`T`$는 시퀀스 길이(시간 단계 수)를 나타내며, $`\mathbf{A}_d, \mathbf{B}_d, \mathbf{C}_d, \mathbf{D}_d`$는 연속 시간 시스템에서 얻은 이산 시간 매개변수입니다. 신호 처리 및 제어에서 전통적으로 사용되는 SSM은 일반적으로 시간 불변 매개변수와 선형 동역학을 가정하지만, 현대의 딥 SSM(예: S4 등)은 $`\mathbf{A}, \mathbf{B}, \mathbf{C}, \mathbf{D}`$를 데이터에서 학습하여 시퀀스 모델링 작업에 사용합니다.
문제 정의
입력 시간 시리즈 $`\mathbf{X} = (x_1, \dots, x_L) \in \mathbb{R}^{L \times V}`$, 여기서 $`L`$은 시퀀스 길이고 $`V`$는 변수 수입니다. 목표는 미래 시간 시리즈 $`\mathbf{Y} = (x_{L+1}, \dots, x_{L+H}) \in \mathbb{R}^{H \times V}`$, 여기서 $`H`$는 예측 지평을 예측하는 것입니다. 전통적인 접근법은 종종 이산 시간 상태 전환에 의존하며, 특히 고주파나 불규칙하게 샘플링된 시계열에서는 미세한 시간 동역학을 포착하는 데 어려움을 겪습니다.
개요 및 문제 정의
개요. 본 섹션에서는 MODE라는 통합 프레임워크를 제안합니다 (그림 2). 이는 저순위 신경ODE와 Mamba 구조를 통합하여 시계열 예측의 핵심 도전 과제인 장기 종속성 모델링, 불규칙한 샘플링 및 계산 효율성을 효과적으로 해결합니다. 우리는 먼저 Mamba 상태 공간 매개변수화에 대한 개요를 살펴보고 이산 시간과 연속 시간 형식을 구축하고 예측 문제를 정의합니다. 그런 다음 신경ODE(그림 1) 기반의 연속 시간 상태 전환 모델을 소개하며, 여기서 상태 진화 행렬은 계산 복잡도를 $`\mathcal{O}(d^2)`$에서 $`\mathcal{O}(d \cdot r)`$로 줄이면서 표현력 능력을 유지하는 저순위 형식으로 매개변수화됩니다. 그런 다음 MODE는 이러한 연속 동역학을 입력에 의존적인 매개변수화를 통해 Mamba 구조에 내장하고, 가장 중요한 시간 단계에 계산을 적응적으로 할당하여 긴 시퀀스 처리를 위한 효율성을 향상시키는 세그먼트 선택적 스캔 메커니즘을 추가합니다. 우리는 예측 손실과 부드러움 정규화를 결합한 학습 목표, 그리고 MODE의 이론적인 시간 및 공간 복잡도 분석에 대해 설명하고 vanilla Mamba 프레임워크와 비교합니다. 마지막으로 제안된 모델의 표현 능력, 안정성 및 효율성을 위한 이론적 통찰을 제공하며 선택적 스캔 메커니즘의 영향과 전체 엔드-투-엔드 알고리즘 파이프라인에 대해 요약합니다.
이러한 도전 과제를 해결하기 위해 우리는 연속 시간 상태 공간 모델링과 신경ODE를 결합하는 새로운 프레임워크를 제안합니다. 이 방법은 Mamba 구조를 활용하여 긴 종속성을 효율적으로 모델링하고 다양한 입력 패턴에 적응합니다. 상태 전환은 연속 시간 동역학을 사용하여 모델링되며, 이는 시스템이 임의 해상도에서 시간 종속성을 표현할 수 있도록 합니다. 이러한 접근법은 계산 복잡도를 줄이고 일반화 능력을 향상시키며, 시간 동역학의 해석 가능한 표현을 제공합니다.
상태 공간 형식과 저순위 신경ODE
제안된 방법에서 상태 전환은 저순위 근사화가 적용된 연속 시간 동역학을 사용하여 모델링됩니다. 입력 시간 시리즈 $`\mathbf{X} = (x_1, \dots, x_L) \in \mathbb{R}^{L \times V}`$에 대해 숨겨진 상태 $`h(t) \in \mathbb{R}^d`$는 다음과 같이 진화합니다: $`\frac{dh(t)}{dt} = A(t) h(t) + B(t) x(t)`$, 여기서 $`A(t) = U(t) \cdot V(t)^\top \in \mathbb{R}^{d \times d}`$는 저순위 상태 전환 행렬이고, $`U(t) \in \mathbb{R}^{d \times r}`$, $`V(t) \in \mathbb{R}^{d \times r}`$, 그리고 $`r \ll d`$, 그리고 $`B(t) \in \mathbb{R}^{d \times V}`$는 입력 행렬입니다. 시간 $`t`$에서의 상태는 다음과 같이 적분을 통해 얻습니다:
여기서 $`f_U`$, $`f_V`$, $`f_B`$, 그리고 $`f_C`$는 다중 층 퍼셉트론(MLP)으로 구현된 학습 가능한 함수입니다. 이 형식은 복잡도를 줄이면서 모델의 미세한 시간 동역학 포착 능력을 유지합니다. 시간 $`t`$에서의 출력은 다음과 같이 계산됩니다: $`y(t) = C(t) h(t)`$, 여기서 $`C(t) \in \mathbb{R}^{V \times d}`$는 출력 행렬입니다. 이 형식은 복잡도를 $`\mathcal{O}(d^2)`$에서 $`\mathcal{O}(d \cdot r)`$로 줄이면서 모델의 미세한 시간 동역학 포착 능력을 유지합니다.
Mamba 구조와 저순위 신경ODE 및 선택적 스캔
Mamba 구조는 이산 시간 상태 공간 형식과 선택적 스캔 메커니즘을 통합하여 긴 시퀀스를 효율적으로 처리합니다. 선택적 스캔 메커니즘은 관련 부분에 초점을 맞추어 복잡도를 $`\mathcal{O}(L \cdot d^2)`$에서 $`\mathcal{O}(L \cdot d \cdot \log k)`$로 줄입니다, 여기서 $`k`$는 관련 시간 단계 수입니다. 이는 입력 및 작업 컨텍스트에 따라 행렬 $`U(t)`$, $`V(t)`$, 그리고 $`B(t)`$를 동적으로 조정함으로써 달성됩니다. 시간 $`t`$에서의 출력은 다음과 같이 계산됩니다: $`y(t) = C(t) h(t)`$, 여기서 $`C(t) \in \mathbb{R}^{V \times d}`$는 출력 행렬입니다. 선택적 스캔 메커니즘을 통해 가장 중요한 부분에만 집중함으로써 모델은 긴 시퀀스에도 확장 가능성을 유지하면서 해석 가능성과 유연성을 보장합니다. 이로 인해 제안된 방법은 특히 고차원 데이터와 긴 시퀀스를 포함하는 시간 시리즈 예측 작업에 적합합니다.
제안된 MODE 모델의 전체 프레임워크. MODE는 임베딩, 저순위 분해 및 선택적 스캔 메커니즘을 통합하여 각 세그먼트에서 로컬과 글로벌 시간 종속성을 효율적으로 포착합니다. 파이프라인은 네 가지 주요 모듈로 구성됩니다: (1) 임베딩, 입력 시간 시리즈를 잠재 표현으로 프로젝션; (2) U, V, B, C 생성, 깊이별 및 점별 합성곱을 통해 저순위 요인 행렬을 생성; (3) 세그먼트 내저순위ODE, 동적 선택적 스캔을 수행하여 세그먼트 내 종속성을 모델링; 그리고 (4) 게이팅 & 연결, 적응형 게이팅을 통해 세그먼트를 거쳐 출력을 집계하고 최종 예측을 위해. 이 설계는 MODE가 장기 시간 시리즈 예측에서 효율성과 견고성을 동시에 달성할 수 있게 합니다.
저순위 신경ODE를 통한 모델 최적화
제안된 모델은 정확한 예측과 부드러운 상태 전환을 보장하기 위해 감독 학습 손실 및 규제 손실의 조합으로 최적화됩니다. 주요 목표는 예측 및 실제 시간 시리즈 간의 평균 제곱 오차(MSE)를 최소화하는 것입니다: $`\mathcal{L}_{\text{pre