오픈소스 정보 기반 범죄 분석
초록
본 논문은 공개된 데이터(뉴스, SNS, 정부 보고서 등)를 활용해 비지도 학습 기법인 군집화와 연관 규칙 마이닝을 적용함으로써 특정 지역의 범죄 현황을 자동으로 파악하는 방법을 제안한다. 실험 결과, 제안된 시스템은 수작업 분석과 유사한 정확도를 보이며 분석 시간을 크게 단축한다.
상세 분석
본 연구는 범죄 분석에 전통적으로 사용되는 현장 조사·수작업 보고서 작성 방식의 비효율성을 극복하고자, 오픈소스(Open Source) 정보를 데이터 원천으로 삼아 비지도 학습 기반 자동 분석 파이프라인을 설계하였다. 데이터 수집 단계에서는 웹 크롤러와 API를 이용해 뉴스 기사, 소셜 미디어 포스트, 경찰청 공개 통계 등 다중 소스에서 텍스트와 메타데이터를 추출한다. 이후 텍스트 정규화, 토큰화, 불용어 제거, 형태소 분석 등을 수행해 구조화된 피처 벡터를 만든다.
군집화에는 K‑means와 계층적 군집화를 병행 적용했으며, 실루엣 점수와 Davies‑Bouldin 지수를 활용해 최적 군집 수를 자동 결정한다. 이를 통해 동일 지역·시간대에 발생한 유사 범죄 사건들을 하나의 클러스터로 묶어, 공간·시간적 패턴을 시각화한다. 연관 규칙 마이닝 단계에서는 Apriori 알고리즘을 사용해 “범죄 유형 ↔ 장소 ↔ 시간” 형태의 3‑항 연관 규칙을 도출한다. 최소 지지도와 신뢰도를 사전에 설정함으로써 의미 있는 패턴만을 추출하도록 제어하였다.
평가에서는 전문가가 수행한 수작업 분석 결과와 자동 분석 결과를 비교하였다. 정밀도·재현율 측면에서 85% 이상의 일치율을 기록했으며, 전체 분석에 소요되는 시간은 수작업 대비 70% 이상 단축되었다. 그러나 데이터의 품질(오류·중복)과 언어 특성(비표준 약어·신조어) 때문에 전처리 비용이 크게 증가했으며, 군집 수 선택이 결과에 민감하게 작용한다는 한계도 지적된다. 향후 연구에서는 딥러닝 기반 임베딩을 도입해 의미론적 유사성을 보다 정교하게 파악하고, 실시간 스트리밍 데이터를 처리할 수 있는 아키텍처를 구축하는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기