인간 이동성의 이중 군집 특성 분석
초록
본 논문은 대규모 이동통신 데이터에 단순 2-클러스터 알고리즘을 적용해 개인의 이동 궤적을 두 개의 주요 군집으로 압축한다. 군집 내·외 이동 비율, 군집 간 거리·시간 분리 정도 등을 정량화함으로써 인간 이동이 얼마나 군집화되는지, 공간적 분산이 군집 간 이동에 의해 얼마나 설명되는지를 밝힌다.
상세 분석
본 연구는 이동통신 사업자가 보유한 수억 건의 CDR(Call Detail Record) 데이터를 활용해 개인별 위치 시퀀스를 추출하고, k‑means(또는 k‑medoids) 기반의 2‑클러스터 알고리즘을 적용하였다. 클러스터 수를 2로 제한함으로써 복잡한 궤적을 ‘주거·생활 군집’과 ‘업무·여가 군집’ 등 두 개의 대표적인 공간 영역으로 요약한다. 클러스터 할당은 최소 제곱 거리 기준으로 수행되며, 각 사용자의 중심점(centroid)과 군집 내 평균 거리(σ) 등을 계산해 군집 내 응집도와 군집 간 분리도를 동시에 측정한다.
핵심 지표는 다음과 같다. 첫째, 군집화 정도 (Clustering Ratio) 로, 전체 이동 거리 중 군집 간 이동이 차지하는 비율을 의미한다. 이는 사용자가 두 군집 사이를 오가는 빈도와 이동 거리의 비중을 정량화한다. 둘째, 군집 내 분산 (Intra‑cluster Dispersion) 은 각 군집의 표준 편차 혹은 평균 절대 편차로 정의되어, 군집이 얼마나 좁게 집중되는지를 나타낸다. 셋째, 군집 간 거리 (Inter‑cluster Distance) 와 시간 간격 (Temporal Gap) 은 두 군집 중심 사이의 유클리드 거리와, 사용자가 한 군집에서 다른 군집으로 전환하는 평균 시간 간격을 각각 측정한다.
실험 결과, 대부분의 사용자는 전체 이동 거리의 6080%를 두 군집 간 이동에 할당했으며, 군집 내 평균 반경은 약 25km 수준으로 비교적 제한적이었다. 또한, 군집 간 평균 거리는 도시 규모에 따라 10~30km 정도 차이를 보였고, 시간 간격은 출퇴근 시간대에 집중되는 피크를 나타냈다. 이러한 결과는 인간 이동이 단순히 무작위적 확산이 아니라, 제한된 수의 핵심 활동 공간을 중심으로 반복적인 왕복 패턴을 보인다는 기존 연구와 일치한다.
알고리즘 측면에서는 2‑클러스터 설정이 계산 복잡도를 크게 낮추어 대규모 데이터에 실시간 적용이 가능함을 보여준다. 그러나 군집 수를 고정함으로써 다중 활동지(예: 여러 직장, 복합 생활권)를 충분히 포착하지 못한다는 한계도 존재한다. 향후 연구에서는 가변 k값을 도입하거나, 공간‑시간 가중치를 조정한 혼합 모델을 적용해 보다 정교한 이동 패턴을 모델링할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기