시간별 인구분포 추정 트위터와 토지이용 및 다이메트릭 지도 활용
초록
본 논문은 2015년 샌디에이고 카운티에서 수집한 지오태깅 트위터 데이터를 이용해, 시간별 인구분포 변화를 고해상도(시계열·공간)로 추정하는 프레임워크를 제시한다. 트위터 사용자 수를 시·구역(인구통계 블록) 및 1 km × 1 km LandScan 격자에 매핑하고, 시간 가중치와 토지이용·2010 인구조사를 결합한 다이메트릭 보정으로 실제 인구밀도를 추정한다. 결과는 전통적 인구통계와 LandScan과 비교해 동적 패턴을 잘 포착함을 보여준다.
상세 분석
이 연구는 소셜미디어와 전통 GIS 데이터를 융합해 ‘실시간 인구분포’ 추정이라는 새로운 방법론을 제시한다. 먼저 Twitter Streaming API를 활용해 2015년 1년간 샌디에이고 카운티 내에서 지오태깅된 트윗 7,884,806건을 수집했으며, 좌표가 없거나 경계 밖에 있는 트윗을 제외해 최종 2,927,301건(≈38%)을 분석에 사용하였다. 데이터 정제 단계에서는 메타데이터의 source 필드를 기반으로 스팸·봇·사이보그를 식별·제거했으며, 전체 트윗 중 13.01%를 노이즈로 간주하고 배제하였다.
시간적 분석에서는 ‘고유 사용자 수’를 시간 단위(1시간)로 집계했는데, 동일 사용자가 같은 구역에서 여러 번 트윗하더라도 한 번만 카운트하는 방식을 채택했다. 이는 실제 인구수와의 비례 관계를 유지하기 위한 합리적 가정이다. 주중과 주말을 구분해 평균 패턴을 도출했으며, 주중은 새벽 0시~4시 감소 후 정오에 상승, 저녁 20시에 최고치를 보이는 반면, 주말은 전반적으로 활동량이 높고 오후 14시경에 피크가 나타난다.
공간적 측면에서는 두 가지 단위를 사용했다. 첫 번째는 미국 인구조사에서 정의한 ‘census block’으로, 평균 인구가 3,000명 이하인 작은 폴리곤이다. 이는 교통분석구역(TAZ)과 직접 연계할 수 있어 재난 대비에 유용하다. 두 번째는 1 km × 1 km 해상도의 LandScan 격자이며, 이는 기존 24시간 평균 인구 모델과 비교 검증에 활용된다. 고밀도 구역(예: 다운타운)에서는 격자당 고유 사용자 수가 3,000명을 초과할 경우, 사분면(quadtree) 분할을 적용해 서브셀로 재계산함으로써 과밀 문제를 해결하였다.
다이메트릭 매핑은 공간 가중치(S)와 시간 가중치(T)를 곱해 최종 인구밀도를 추정한다. 공간 가중치는 2010년 인구조사와 토지이용(LU) 데이터를 결합해 각 토지 유형별 인구밀도 비율을 산출하고, 이를 고유 사용자 수에 적용한다. 시간 가중치는 각 시각별 고유 사용자 비율을 전체 평균 대비 정규화한 값이다. 이렇게 얻은 ‘동적 인구밀도’는 기존 정적 인구통계와 비교했을 때, 상업·관광·공원 등 비주거 지역에서의 인구 흐름을 효과적으로 포착한다.
결과 분석에서는 6 am과 8 pm 두 시점을 비교했으며, 8 pm에 고유 사용자 분포가 2010년 인구조사와 유사한 패턴을 보이면서도, Balboa Park, San Diego Zoo, 대형 쇼핑몰 등 주거 인구가 적은 지역에서도 높은 사용자 밀도를 확인했다. 이는 트위터가 ‘활동 인구’를 반영한다는 점을 시사한다. LandScan과의 비교에서는 격자 해상도가 낮아 세부적인 도시 변화를 포착하기 어려운 반면, census block 기반 모델이 더 정밀한 결과를 제공한다는 결론을 내렸다.
한계점으로는 트위터 사용자층이 인구 전체를 대표하지 못한다는 점(연령·소득·문화적 편향)과, 봇·스팸 탐지의 불완전성, 그리고 데이터 수집 기간이 1년으로 제한적이라는 점을 들었다. 향후 연구에서는 다중 소스(모바일 CDR, GPS, Wi‑Fi 로그)와 머신러닝 기반 보정 모델을 결합해 정확도를 높이고, 실시간 재난 대응 시스템에 적용하는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기