결정트리를 활용한 지역개발 단계 분류 모델

초록

본 연구는 인도네시아 중앙자와와 반텐 지방의 GDP 지표를 활용해 지역개발 수준을 분류하는 결정트리 모델을 구축한다. Klassen 유형분류를 사전 라벨링으로 사용하고, J48, NBTRee, REPTree 세 알고리즘을 교차검증으로 비교한 결과 J48이 85.18%의 정확도로 가장 우수하였다. 모델을 실제 12개 시·군에 적용해 상대적으로 저개발 지역을 식별했으며, 정책결정 지원 도구로 활용 가능함을 제시한다.

상세 요약

이 논문은 전통적인 지역개발 분류법(Shift‑Share, Gain Index, I‑index, Klassen typology)과 최신 데이터 마이닝 기법을 접목시켜, 지역별 거시경제 지표인 GDP를 기반으로 자동화된 분류 체계를 제안한다. 연구 흐름은 크게 네 단계로 나뉜다. 첫째, 중앙자와와 반텐 두 주의 연도별 GDP 데이터를 수집하고, 각 시·군을 Klassen typology에 따라 ‘발전’, ‘잠재발전’, ‘후진’, ‘후진잠재’ 네 사분면 중 하나로 라벨링한다. 이 단계는 기존 방법론의 신뢰성을 확보하고, 지도학습을 위한 정답 레이블을 제공한다는 점에서 핵심적이다. 둘째, 라벨링된 데이터를 학습 데이터셋으로 활용해 세 종류의 결정트리 알고리즘을 적용한다. J48은 C4.5 기반의 구현으로 연속형 속성 처리와 가지치기(pruning) 전략이 강화돼 과적합을 방지한다. NBTRee는 Naïve‑Bayes와 트리 구조를 결합한 하이브리드 모델이며, REPTree는 회귀 트리 기반으로 빠른 학습과 낮은 메모리 사용이 특징이다. 셋째, 10‑fold 교차검증을 통해 각 모델의 정확도, 정밀도, 재현율, F1‑score를 평가한다. 실험 결과 J48이 85.18%의 정확도로 가장 높은 성능을 보였으며, NBTRee와 REPTree는 각각 78.4%와 73.9%에 머물렀다. 이는 J48이 속성 선택과 가지치기에서 보다 정교한 기준을 적용했기 때문으로 해석된다. 넷째, 최적 모델인 J48을 이용해 테스트 셋인 반텐 6개 시·군과 중앙자와 6개 시·군에 적용하였다. 결과는 반텐의 ‘코타 탄게랑’·‘카부펜탄 탄게랑’과 중앙자와의 ‘켄달’, ‘마겔랑’, ‘페말랑’, ‘렘방’, ‘세마랑’, ‘원소보’가 모두 저개발 사분면에 속함을 확인했다. 이는 기존 Klassen 분류와 일치하거나 일부 차이를 보였으며, 모델이 실제 정책 현장에 적용될 때 새로운 인사이트를 제공할 수 있음을 시사한다. 또한, 모델은 입력 데이터만으로 빠르게 결과를 도출하므로 정책 입안자가 시나리오 분석을 수행할 때 의사결정 시간을 크게 단축시킬 수 있다. 그러나 데이터가 GDP 하나에 국한된 점, 시계열 변동성을 고려하지 않은 점, 그리고 외부 요인(인프라, 교육 수준 등)을 반영하지 않은 점은 향후 연구에서 보완해야 할 한계로 남는다. 전반적으로 이 연구는 결정트리 기반 지역개발 분류 모델의 실용성을 입증하고, 데이터 기반 정책지원 도구로서의 가능성을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)