Sparse Generalized Yule-Walker Estimation for Large Spatio-temporal Autoregressions with an Application to NO2 Satellite Data

Reading time: 4 minute
...
Featured Image

📝 Abstract

We consider a high-dimensional model in which variables are observed over time and space. The model consists of a spatio-temporal regression containing a time lag and a spatial lag of the dependent variable. Unlike classical spatial autoregressive models, we do not rely on a predetermined spatial interaction matrix, but infer all spatial interactions from the data. Assuming sparsity, we estimate the spatial and temporal dependence fully data-driven by penalizing a set of Yule-Walker equations. This regularization can be left unstructured, but we also propose customized shrinkage procedures when observations originate from spatial grids (e.g. satellite images). Finite sample error bounds are derived and estimation consistency is established in an asymptotic framework wherein the sample size and the number of spatial units diverge jointly. Exogenous variables can be included as well. A simulation exercise shows strong finite sample performance compared to competing procedures. As an empirical application, we model satellite measured NO2 concentrations in London. Our approach delivers forecast improvements over a competitive benchmark and we discover evidence for strong spatial interactions.

💡 Analysis

We consider a high-dimensional model in which variables are observed over time and space. The model consists of a spatio-temporal regression containing a time lag and a spatial lag of the dependent variable. Unlike classical spatial autoregressive models, we do not rely on a predetermined spatial interaction matrix, but infer all spatial interactions from the data. Assuming sparsity, we estimate the spatial and temporal dependence fully data-driven by penalizing a set of Yule-Walker equations. This regularization can be left unstructured, but we also propose customized shrinkage procedures when observations originate from spatial grids (e.g. satellite images). Finite sample error bounds are derived and estimation consistency is established in an asymptotic framework wherein the sample size and the number of spatial units diverge jointly. Exogenous variables can be included as well. A simulation exercise shows strong finite sample performance compared to competing procedures. As an empirical application, we model satellite measured NO2 concentrations in London. Our approach delivers forecast improvements over a competitive benchmark and we discover evidence for strong spatial interactions.

📄 Content

우리는 변수들이 시간과 공간에 걸쳐 동시에 관측되는 고차원(high‑dimensional) 모델을 연구 대상으로 설정한다. 이 모델은 종속 변수 자체에 대한 시간 지연(time lag)과 공간 지연(spatial lag)을 동시에 포함하는 시공간(spatio‑temporal) 회귀(regression) 형태를 갖추고 있으며, 전통적인 공간 자기회귀(spatial autoregressive, SAR) 모형에서 흔히 가정되는 사전에 정해진 공간 상호작용 행렬(pre‑determined spatial interaction matrix)에 의존하지 않는다. 대신에, 관측된 데이터 자체로부터 모든 가능한 공간 상호작용을 추정(infer)하도록 설계되었다.

구체적으로 말하면, 우리는 데이터가 희소(sparse)하다는 가정을 전제로 하여, Yule‑Walker 방정식 집합에 대한 일련의 패널티(penalization)를 적용함으로써 공간적 의존성(spatial dependence)과 시간적 의존성(temporal dependence)을 완전히 데이터‑주도(data‑driven) 방식으로 추정한다. 이러한 정규화(regularization) 절차는 구조적 제약이 없는(unstructured) 형태로도 구현이 가능하지만, 관측치가 공간 격자(spatial grid), 예를 들어 위성 영상(satellite images)과 같은 규칙적인 격자 형태에서 수집된 경우에는, 격자 구조에 특화된 맞춤형 수축(shrinkage) 절차(customized shrinkage procedures)를 추가로 제안한다.

이와 같은 방법론적 접근에 대해 우리는 유한 표본(finite sample) 상황에서의 오차 경계(error bounds)를 엄밀히 도출하고, 표본 크기(sample size)와 공간 단위의 수(number of spatial units)가 동시에 무한대로 발산(diverge)하는 비점근적(asymptotic) 프레임워크 내에서 추정량의 일관성(consistency)을 수학적으로 입증한다. 또한, 외생 변수(exogenous variables)를 모델에 포함시킬 수 있는 확장성을 제공함으로써, 실제 연구 현장에서 흔히 나타나는 다양한 외부 요인들을 동시에 고려할 수 있도록 설계하였다.

시뮬레이션 실험(simulation exercise)을 통해서는, 제안된 방법이 기존에 널리 사용되는 경쟁 절차들에 비해 유한 표본 상황에서도 뛰어난 성능을 보이며, 특히 높은 차원의 데이터 환경에서 변수 선택과 파라미터 추정의 정확도가 현저히 향상됨을 확인하였다. 마지막으로, 실증적(empirical) 적용 사례로서 우리는 영국 런던(London) 지역에서 위성으로 측정된 이산화질소(NO₂) 농도 데이터를 모델링하였다. 이 실증 분석 결과, 제안된 접근법은 경쟁 벤치마크(competitive benchmark) 대비 예측 정확도(forecast accuracy)를 실질적으로 개선함을 보여주었으며, 동시에 런던 전역에 걸쳐 강력한 공간적 상호작용(strong spatial interactions)의 존재 증거를 발견하였다.

요약하면, 본 연구는 사전 정의된 공간 가중 행렬에 의존하지 않고, 데이터 자체로부터 고차원 시공간 의존 구조를 추정하는 새로운 프레임워크를 제시함으로써, 이론적 정당성(theoretical justification)과 실증적 유용성(empirical usefulness)을 동시에 확보한다. 특히, 희소성(sparsity) 가정 하에 Yule‑Walker 방정식에 패널티를 부과하는 방식은 기존 방법들이 직면했던 차원 저주(curse of dimensionality) 문제를 효과적으로 완화시키며, 격자 기반 데이터에 특화된 맞춤형 수축 기법은 위성 영상과 같은 대규모 공간 데이터 처리에 있어 계산 효율성(computational efficiency)과 추정 정확도(estimate accuracy)를 동시에 달성할 수 있게 한다. 이러한 장점들은 향후 다양한 분야, 예컨대 환경 과학, 도시 계획, 경제 지리학 등에서 복합적인 시공간 현상을 분석하고 예측하는 데 있어 강력한 도구(tool)로 활용될 수 있을 것으로 기대한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut