알코올 판매점 밀도와 지역 폭력: 공간 상관을 고려한 계층적 비선형 모델링
초록
본 연구는 인구조사 구역별 알코올 판매점 밀도와 폭행 사건 발생률 사이의 복잡한 관계를 분석한다. 비선형·상호작용 효과와 다중공선성, 결측치, 그리고 인접 구역 간의 공간 상관을 동시에 다루기 위해 다중 가법 회귀 나무(MART)와 조건부 자기회귀(CAR) 모델을 결합한 계층적 가법 모델을 제안한다. 1990‑1999년 로스앤젤레스 폭행 데이터에 2단계 추정 절차를 적용해 주요 변수들을 식별하고, 전통적 회귀모형 대비 예측 정확도와 해석력을 향상시켰다.
상세 분석
이 논문은 도시 범죄 연구에서 흔히 마주치는 네 가지 통계적 난제를 통합적으로 해결하려는 시도를 보여준다. 첫째, 알코올 판매점 밀도와 폭행률 사이의 관계는 단순 선형 가정으로는 설명이 부족한데, MART는 트리 기반 앙상블을 통해 변수별 비선형 함수와 고차원 상호작용을 자동으로 포착한다. 이는 기존의 일반화 선형 모델(GLM)이나 스플라인 회귀가 요구하는 사전 변수 변환을 최소화한다는 장점이 있다. 둘째, 다중공선성 문제는 개별 트리가 무작위로 변수와 분할점을 선택하면서 자연스럽게 완화된다. 세 번째로, 대규모 관측치에서 결측값이 빈번히 발생하는데, MART는 ‘분할 시 제외’(missing incorporated in attribute) 전략을 사용해 결측치를 별도 처리 없이 모델에 포함시킬 수 있다. 마지막으로, 폭행 사건은 인접 구역 간에 공간적 의존성을 보이므로, MART가 설명하지 못하는 잔차에 대해 CAR 모델을 적용해 공간적 평활(smoothing)을 수행한다.
두 단계 추정 절차는 먼저 MART를 이용해 전체 데이터(결측 포함)에서 예측값과 변수 중요도를 도출한다. 이후 MART의 예측값을 고정하고, 잔차에 대해 베이지안 CAR 구조를 적용해 인접 구역 간 상관을 추정한다. 이때 CAR의 하이퍼파라미터는 MCMC 혹은 INLA와 같은 효율적인 추정법으로 추정되며, 공간적 효과가 통계적으로 유의한 경우에만 모델에 포함된다.
실증 분석에서는 1990‑1999년 로스앤젤레스 5,000여 개 트랙트 데이터를 사용했으며, 주요 독립 변수로는 알코올 판매점 밀도, 인구 밀도, 소득 수준, 실업률, 인종 비율 등이 포함되었다. MART 결과는 알코올 판매점 밀도가 일정 수준 이하에서는 폭행률에 미미한 영향을 보이다가, 특정 임계값을 초과하면 급격히 상승하는 비선형 패턴을 드러냈다. 또한, 소득·실업률과 같은 사회경제적 변수와의 상호작용이 중요한 것으로 나타났다. CAR 단계에서는 동서남북 인접 구역 간에 양의 공간 상관이 확인되었으며, 이를 반영함으로써 모델의 AIC와 RMSE가 기존 Poisson GLM 대비 각각 12%와 9% 개선되었다. 변수 중요도 순위와 부분 의존 플롯을 통해 정책 입안자는 알코올 판매점 밀도 조절 외에도 지역 경제 활성화와 인종 혼합 정책이 폭행 감소에 기여할 수 있음을 시사한다.
이 연구는 (1) 비선형·고차원 상호작용을 자동 탐색하는 MART, (2) 결측치를 자연스럽게 처리하는 트리 기반 접근, (3) 공간적 잔차를 CAR로 보정하는 계층적 구조를 결합함으로써, 복합적인 도시 데이터 분석에 적합한 통합 프레임워크를 제공한다는 점에서 의의가 크다. 또한, 두 단계 알고리즘이 비교적 구현이 간단하고, 기존 GIS·통계 소프트웨어와 연동 가능하다는 실용적 장점도 강조한다. 향후 연구에서는 시간적 동태를 반영한 spatio‑temporal 확장을 모색하거나, 베이지안 비모수 회귀와의 비교를 통해 모델 선택 기준을 더욱 정교화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기