A Bayesian approach for estimation of weight matrices in spatial autoregressive models

📝 Abstract
We develop a Bayesian approach to estimate weight matrices in spatial autoregressive (or spatial lag) models. Datasets in regional economic literature are typically characterized by a limited number of time periods T relative to spatial units N. When the spatial weight matrix is subject to estimation severe problems of over-parametrization are likely. To make estimation feasible, our approach focusses on spatial weight matrices which are binary prior to row-standardization. We discuss the use of hierarchical priors which impose sparsity in the spatial weight matrix. Monte Carlo simulations show that these priors perform very well where the number of unknown parameters is large relative to the observations. The virtues of our approach are demonstrated using global data from the early phase of the COVID-19 pandemic.
💡 Analysis
We develop a Bayesian approach to estimate weight matrices in spatial autoregressive (or spatial lag) models. Datasets in regional economic literature are typically characterized by a limited number of time periods T relative to spatial units N. When the spatial weight matrix is subject to estimation severe problems of over-parametrization are likely. To make estimation feasible, our approach focusses on spatial weight matrices which are binary prior to row-standardization. We discuss the use of hierarchical priors which impose sparsity in the spatial weight matrix. Monte Carlo simulations show that these priors perform very well where the number of unknown parameters is large relative to the observations. The virtues of our approach are demonstrated using global data from the early phase of the COVID-19 pandemic.
📄 Content
우리는 공간 자기회귀(Spatial Autoregressive) 모형 혹은 공간 지연(Spatial Lag) 모형에서 사용되는 가중치 행렬을 추정하기 위한 베이지안(Bayesian) 접근법을 새롭게 개발하였다.
이러한 접근법은 지역 경제 문헌에서 흔히 다루어지는 데이터셋의 특성을 면밀히 고려한다.
특히 지역 경제 연구에 이용되는 대부분의 데이터는 시간 차원에서 관측되는 시점의 수 (T)가 공간 단위의 수 (N)에 비해 상대적으로 적은 구조를 가진다.
즉, 시간적 관측치가 제한적인 반면, 공간적 관측치는 다수인 경우가 일반적이다.
이와 같은 데이터 구조에서는 공간 가중치 행렬을 직접 추정하려 할 때 과다 매개변수화(over‑parametrization)라는 심각한 통계적 문제가 쉽게 발생한다.
과다 매개변수화는 추정해야 할 파라미터의 수가 관측치의 수보다 현저히 많아져, 모델의 식별성(identifier)과 추정 안정성(stability)을 크게 저해한다.
따라서 실용적인 추정을 가능하게 만들기 위해서는 가중치 행렬에 대한 적절한 제약조건을 도입하는 것이 필수적이다.
우리의 방법론은 바로 이러한 제약조건을 “행 표준화(row‑standardization) 이전에 이진(binary) 형태를 갖는” 공간 가중치 행렬에 초점을 맞추어 설계되었다.
즉, 각 행에 포함된 원소가 0 또는 1의 값을 가지며, 이후에 각 행을 합이 1이 되도록 표준화하는 전처리 과정을 전제로 한다.
이러한 이진 행렬 가정은 실제 경제·지리학적 네트워크에서 흔히 관찰되는 ‘연결 여부(connected vs. not connected)’를 자연스럽게 반영한다.
하지만 이진 형태만으로는 충분히 희소(sparse)한 구조를 보장하기 어렵기 때문에, 우리는 추가적인 통계적 장치를 도입한다.
구체적으로, 공간 가중치 행렬의 희소성을 강제하기 위해 계층적 사전분포(hierarchical priors)를 활용한다.
계층적 사전분포는 상위 단계에서 전체 행렬의 희소성 정도를 조절하는 하이퍼파라미터를 두고, 하위 단계에서는 개별 원소가 0이 될 확률을 모델링한다.
이러한 구조적 사전은 베이지안 추정 과정에서 자동으로 불필요한 연결을 0으로 수축(shrink)시키는 효과를 제공한다.
결과적으로, 관측된 데이터가 제한적일 때에도 파라미터 공간을 효율적으로 축소시켜 과다 매개변수화 문제를 완화한다.
우리의 제안된 방법론이 실제로 얼마나 효과적인지는 광범위한 몬테카를로 시뮬레이션을 통해 검증하였다.
시뮬레이션 설계에서는 관측치의 수에 비해 추정해야 할 미지 파라미터의 수가 크게 늘어나는 극단적인 상황을 인위적으로 구성하였다.
그 결과, 계층적 희소성 사전이 적용된 베이지안 추정은 기존의 비제약 추정법에 비해 추정 오차(mean squared error)를 현저히 낮추는 동시에, 추정된 가중치 행렬의 구조적 해석 가능성을 크게 향상시켰다.
특히 파라미터 수가 관측치 수의 5배, 10배에 달하는 경우에도 사전이 제공하는 규제가 모델을 안정적으로 수렴하도록 만들었다.
이러한 실험적 증거는 우리 방법이 “파라미터가 많고 데이터가 적은” 전형적인 지역경제 데이터 상황에 매우 적합함을 시사한다.
우리의 접근법이 실제 데이터에 적용될 때 어떤 장점을 발휘하는지도 실증적으로 확인하였다.
COVID‑19 팬데믹 초기 단계(2020년 초~중반)에 전 세계 여러 국가에서 보고된 일일 확진자 수와 사망자 수를 이용한 글로벌 데이터셋을 구축하였다.
이 데이터는 시간 차원에서 몇 개월에 불과한 짧은 기간(T가 작음) 동안, 150개가 넘는 국가·지역(N이 큼)을 포함하고 있었다.
전통적인 공간 회귀 분석을 그대로 적용하면, 가중치 행렬을 추정하기 위한 자유도가 부족해 모델이 발산하거나 과적합(over‑fitting)되는 문제가 발생한다.
하지만 우리 방법을 적용하면, 이진 형태의 가중치 행렬에 계층적 희소성 사전을 결합함으로써, 실제로 의미 있는 국가 간 전파 경로만이 선택적으로 드러났다.
추정된 가중치 행렬은 지리적 인접성뿐만 아니라, 국제 항공·해운 네트워크, 경제적 교류 규모 등 실제 전염 경로와 높은 상관관계를 보였다.
또한, 베이지안 사후분포(posterior distribution)를 통해 각 연결의 불확실성을 정량화함으로써, 정책 입안자가 위험도가 높은 경로에 우선적으로 대응할 수 있는 근거를 제공하였다.
요약하면, 우리는 (1) 공간 가중치 행렬을 이진 형태로 제한하고, (2) 계층적 사전분포를 통해 희소성을 강제하는 베이지안 추정 프레임워크를 제시했으며, (3) 몬테카를로 시뮬레이션과 실제 COVID‑19 글로벌 데이터 적용을 통해 그 효용성을 입증하였다.
이러한 연구 결과는 제한된 시간적 관측치와 풍부한 공간적 관측치를 동시에 갖는 지역경제·공공보건·환경 등 다양한 분야의 공간 회귀 분석에 널리 활용될 수 있을 것으로 기대한다.
앞으로는 보다 복잡한 비선형 공간 모델이나, 동적 네트워크 구조를 포함하는 확장 모델에도 본 접근법을 적용함으로써, 실증 연구의 폭을 더욱 넓혀 나갈 계획이다.