지역 클러스터 구조 분석을 위한 주성분 모델링
본 논문은 러시아 연방 85개 지역의 19개 사회경제 지표에 대해 주성분 분석(PCA)을 적용하여 차원을 5개 주성분으로 축소하고, 이를 기반으로 계층적 군집 분석을 수행한다. PCA는 원 데이터 변동의 약 75%를 설명하며, 다중공선성을 해소하고 군집을 보다 명확히 구분한다. 결과적으로 고도발전 지역, 중고·저발전 지역, 그리고 가장 열악한 지역 네 개의
초록
본 논문은 러시아 연방 85개 지역의 19개 사회경제 지표에 대해 주성분 분석(PCA)을 적용하여 차원을 5개 주성분으로 축소하고, 이를 기반으로 계층적 군집 분석을 수행한다. PCA는 원 데이터 변동의 약 75%를 설명하며, 다중공선성을 해소하고 군집을 보다 명확히 구분한다. 결과적으로 고도발전 지역, 중고·저발전 지역, 그리고 가장 열악한 지역 네 개의 군집이 도출되고, 자원경제 의존도가 높은 현황과 산업 잠재력 미활용 문제가 강조된다.
상세 요약
이 연구는 다변량 사회경제 데이터를 다루는 전형적인 사례에서 차원 축소와 군집화가 어떻게 시너지 효과를 발휘할 수 있는지를 보여준다. 먼저 19개의 변수는 인구, 고용, 산업 생산, 투자, 교육 수준, 보건 지표 등으로 구성되어 있으며, 변수 간 상관관계가 매우 높아 전통적인 군집 분석에서는 군집 경계가 흐릿해지는 문제가 있었다. 주성분 분석을 적용함으로써 변수 간 다중공선성을 효과적으로 제거하고, 공분산 구조를 몇 개의 선형 조합(주성분)으로 압축하였다.
5개의 주성분을 선택한 근거는 고유값 기준(>1)과 누적 설명력(75%)을 동시에 만족했기 때문이다. 첫 번째 주성분은 자원 생산량과 원자재 수출 비중이 높은 지역을, 두 번째는 제조업 부가가치와 고용 비율을, 세 번째는 인프라 지표(도로·철도 연장, 물류량)를, 네 번째는 인적 자원(교육 수준·인구 성장률)을, 다섯 번째는 재정 수지와 지방재정 자립도를 주로 반영한다. 이러한 해석은 각 주성분이 실제 경제 구조와 어떻게 연결되는지를 명확히 보여준다.
주성분을 기반으로 한 계층적 군집 분석에서는 Ward 방법을 사용해 군집 간 거리(유클리드 거리)를 최소화하였다. 결과적으로 네 개의 주요 군집이 도출되었으며, 각 군집은 다음과 같은 특징을 가진다.
- 고도발전 군집(소수 지역) – 주성분 1·2에서 높은 점수를 보이며, 석유·가스 등 자원 부문과 동시에 고부가가치 제조업이 공존한다. 재정 자립도와 인프라 수준도 최고 수준이다.
- 중고발전 군집 – 자원 의존도가 높지만 제조업 비중이 낮으며, 인프라와 인적 자원 지표가 평균 수준이다.
- 저발전 군집 – 주성분 3·4에서 낮은 점수를 보이며, 인프라와 교육 수준이 열악하고, 산업 구조가 단일(주로 농업·목재)이다.
- 가장 열악한 군집 – 모든 주성분에서 낮은 점수를 보이며, 재정 적자와 인구 감소가 심각하다.
특히, 주성분 모델을 적용한 후 이상치가 두드러지게 드러나거나, 기존 군집에서는 묻혀 있던 지역들이 명확히 구분되는 현상이 관찰되었다. 이는 차원 축소가 데이터의 신호 대 잡음비를 향상시켜 군집 경계를 선명하게 만든 결과로 해석할 수 있다. 또한, 코로나19와 국제 제재가 경제 성장에 미친 영향을 변수별로 정량화하기는 어려웠지만, 주성분 5(재정 자립도)와 2(제조업 부가가치)에서 감소 추세가 확인돼 정책적 시사점을 제공한다.
이와 같은 분석 흐름은 데이터 전처리(결측치 보정·표준화) → PCA → 주성분 해석 → 계층적 군집 → 군집 특성 분석이라는 일관된 파이프라인을 제시한다. 연구자는 향후 시뮬레이션을 위해 주성분 회귀 모델을 구축하고, 정책 시나리오(예: 산업 다각화, 인프라 투자)의 영향을 정량적으로 예측할 수 있는 기반을 마련하고자 한다.
전반적으로 본 논문은 고차원 사회경제 데이터를 다루는 지역학·경제학 연구에 있어 PCA와 군집 분석의 결합이 어떻게 실질적인 정책 인사이트를 도출할 수 있는지를 실증적으로 증명한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...