범죄 유형 기반 공간 시간 핫스팟 예측

초록

본 논문은 덴버와 로스앤젤레스의 실제 범죄 데이터를 활용해 공간·시간적 핫스팟을 식별하고, Apriori 알고리즘으로 빈번한 범죄 패턴을 도출한다. 또한 Decision Tree와 Naive Bayes 분류기를 이용해 특정 시점·위치에서 발생할 가능성이 높은 범죄 유형을 예측한다. 덴버 데이터에 인구통계 정보를 결합해 지역 안전에 영향을 미치는 요인을 분석함으로써, 위험 지역 인식 및 사전 대응에 활용할 수 있는 실용적 인사이트를 제공한다.

상세 분석

논문은 두 도시의 범죄 기록을 시계열과 지리좌표로 정제한 뒤, 히트맵과 시간대별 빈도 그래프를 통해 시공간적 집중 구역을 시각화한다. 데이터 전처리 단계에서 결측치 보정과 좌표 변환을 명시했지만, 좌표 정확도와 시간 스탬프 동기화에 대한 상세 설명이 부족해 재현성에 의문이 남는다. Apriori 알고리즘 적용 시 최소 지지도와 신뢰도 임계값을 각각 0.02와 0.6으로 설정했으며, 결과로 도출된 연관 규칙은 ‘밤시간대 + 특정 지역 → 절도·폭행’과 같은 직관적인 패턴을 보여준다. 그러나 규칙 수가 과다하게 생성돼 의미 있는 규칙을 선별하는 기준이 명확히 제시되지 않아 실무 적용 시 혼란을 초래할 수 있다. 분류 모델에서는 Decision Tree와 Naive Bayes를 각각 70%와 65%의 정확도로 평가했으며, 교차 검증을 5‑fold로 수행했다. Decision Tree는 변수 중요도 분석을 통해 ‘시간대’, ‘위치’, ‘범죄 유형 이전 기록’이 핵심 특성임을 밝혀냈지만, 과적합 위험을 완화하기 위한 가지치기 전략이 충분히 논의되지 않았다. Naive Bayes는 조건부 독립 가정이 현실 데이터에 부합하지 않을 가능성을 언급했지만, 이를 보완하기 위한 베이지안 네트워크와 같은 확장 모델에 대한 제언이 부족하다. 덴버 데이터와 인구통계(소득, 인구 밀도, 교육 수준) 결합 분석에서는 다중 회귀 모델을 사용해 각 요인이 범죄 발생률에 미치는 영향을 정량화했으며, 특히 저소득·고밀도 지역에서 폭력 범죄 위험이 유의하게 상승한다는 결과를 도출했다. 그러나 인구통계 데이터의 시점 차이와 공간적 불일치 문제를 해결하기 위한 보간 방법이 상세히 기술되지 않아 결과 해석에 제한이 있다. 전반적으로 연구는 데이터 시각화, 연관 규칙 탐색, 지도학습 모델 적용을 일관된 파이프라인으로 구성했지만, 각 단계별 하이퍼파라미터 튜닝 과정과 모델 비교 지표(정밀도, 재현율, F1‑score 등)의 상세 보고가 부족해 실용적 신뢰성을 판단하기 어렵다. 향후 연구에서는 딥러닝 기반 시계열‑공간 모델(LSTM‑CNN) 도입, 실시간 데이터 스트리밍 처리, 정책 시뮬레이션을 통한 예방 효과 검증 등을 제시하면 보다 강건한 범죄 예측 프레임워크를 구축할 수 있을 것이다.