스프롤과 빈곤 통근시간 연관성 분석
초록
본 연구는 AIC 기반 모델 선택과 재귀 분할 트리(RPART)를 활용해 미국 내 도시 스프롤 현상이 빈곤과 통근시간에 미치는 영향을 정량적으로 평가한다. 데이터는 인구통계, 교통, 소득 지표를 포함한 전국 규모의 관측치를 사용했으며, 모델 비교를 통해 스프롤이 통근시간을 증가시키고, 장시간 통근이 빈곤층 비율을 높이는 구조적 연관성을 밝혀냈다.
상세 분석
본 논문은 도시 스프롤 현상을 경제적 불평등과 연결짓는 새로운 접근법을 제시한다. 첫 번째 단계에서는 미국 인구조사와 교통국 데이터베이스를 통합해, 인구 밀도, 자동차 보유율, 대중교통 접근성, 평균 통근시간, 가구 소득 등 12개의 변수들을 선정하였다. 변수 간 다중공선성을 확인하기 위해 VIF(Variance Inflation Factor)를 계산했으며, 5 이하인 변수만을 최종 모델에 포함시켰다.
다음으로 모델 선택 과정에서 AIC(Akaike Information Criterion)를 활용하였다. 기본 선형 회귀 모델, 혼합 효과 모델, 그리고 일반화 가법 모델(GAM)을 각각 적합시킨 뒤, AIC 값을 비교하였다. 가장 낮은 AIC를 기록한 모델은 통근시간을 종속 변수로, 인구 밀도와 자동차 보유율을 주요 설명 변수로 하는 다중 선형 회귀 모델이었다. 이 모델은 통근시간이 인구 밀도 감소와 자동차 보유율 증가에 따라 유의하게 길어지는 것을 보여준다.
핵심적인 기계학습 단계는 재귀 분할 트리(RPART)이다. 트리는 먼저 통근시간을 기준으로 데이터를 이분하고, 이후 빈곤율(가구당 연소득이 중위소득의 50% 이하인 비율)을 종속 변수로 설정해 최적의 분할 변수를 탐색한다. 트리 구조는 크게 세 가지 주요 분할점으로 구성된다: (1) 평균 통근시간이 30분을 초과하는 경우, (2) 자동차 보유 가구 비중이 70% 이상인 경우, (3) 대중교통 접근성이 낮은(버스 정류장까지 1km 이상) 지역인 경우. 각 노드에서 빈곤율의 평균값을 계산했으며, 최종 리프 노드에서는 빈곤율이 22%에 달하는 고위험 구역이 도출되었다.
교차 검증(10‑fold CV) 결과, 트리 모델의 평균 제곱 오차(MSE)는 선형 회귀 모델보다 12% 낮았으며, 변수 중요도 분석에서는 통근시간, 자동차 보유율, 대중교통 접근성이 상위 3위에 올랐다. 또한, 부분 의존 플롯(PDP)을 통해 통근시간이 10분 증가할 때마다 빈곤율이 약 1.3% 상승한다는 선형적 관계를 시각화하였다.
이러한 결과는 스프롤이 물리적 거리와 교통 비용을 증가시켜 통근시간을 연장하고, 장시간 통근이 노동시장 접근성을 저해함으로써 저소득층의 경제적 기회를 제한한다는 가설을 실증적으로 뒷받침한다. 논문은 또한 정책적 함의를 제시한다. 첫째, 교통 인프라를 재구성해 대중교통 접근성을 개선하고, 둘째, 고밀도 주거 개발을 촉진해 통근시간을 단축함으로써 빈곤 감소에 기여할 수 있다.
한계점으로는 횡단적 데이터에 의존해 인과관계를 완전히 규명하지 못했다는 점, 그리고 트리 모델이 과적합 위험을 내포하고 있어 외부 검증이 필요하다는 점을 언급한다. 향후 연구에서는 패널 데이터를 활용한 시계열 분석과, 랜덤 포레스트·그래디언트 부스팅 등 앙상블 기법을 도입해 모델의 일반화 능력을 강화할 것을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기