트위터를 활용한 전 세계 이동 패턴 분석과 사회적 활용
** 본 논문은 2012년 1월부터 2015년 9월까지 수집된 85억 건 이상의 공개 지오태그 트윗을 이용해 전 세계 도시·국가 간 이동 네트워크를 구축하고, 이를 통해 트위터가 인도주의·개발 분야에 필요한 실시간 이동 데이터 원천으로 활용될 가능성을 탐색한다. **
저자: Mark Dredze, Manuel Garcia-Herranz, Alex Rutherford
**
본 논문은 전 세계 인간 이동 패턴을 파악하기 위한 새로운 데이터 원천으로 트위터의 지오태그 정보를 활용한다는 연구 목표를 설정하고, 2012년 1월부터 2015년 9월까지 약 4년간 수집된 85억 건 이상의 공개 트윗을 기반으로 분석을 전개한다. 기존 이동 데이터(항공 기록, 모바일 CDR, 여행 일지 등)는 접근성·시의성·지리·시간 해상도에서 한계를 보이며, 특히 저소득 국가에서는 데이터 확보가 어려운 상황이다. 반면 트위터는 전 세계적으로 실시간으로 공개되는 대규모 텍스트와 위치 정보를 제공한다. 비록 전체 트윗 중 지오태그 비율은 2‑3 %에 불과하지만, 일일 5 억 건의 트윗 규모를 고려하면 매일 수백만 건의 위치 데이터가 축적된다.
데이터 전처리 단계에서는 각 사용자의 트윗을 시간 순으로 정렬하고, 연속된 두 트윗 사이에 (1) 시간 차 ≤ 72 시간, (2) 두 트윗 모두 좌표 혹은 태그된 위치 보유, (3) 위치가 서로 다르고 포함 관계가 없으며, (4) 물리적 거리 ≥ 50 km인 경우를 이동 이벤트로 정의한다. 이를 통해 총 3 억 5 천만 건 이상의 이동 이벤트를 추출했으며, 사용자당 평균 이동 횟수는 3.6건, 중앙값은 0건으로 나타났다. 스팸·봇 계정에 의한 왜곡을 방지하기 위해 (a) 속도 > 1000 km/h인 이벤트 제거, (b) 전체 지오태그 수 > 1000건인 상위 4 % 사용자 제외, (c) 이동 이벤트 수 > 100건인 상위 0.4 % 사용자 제외라는 3단계 필터링을 적용했다.
위치 매핑을 위해 전 세계 지리 데이터베이스인 Geonames를 활용하였다. 첫 번째 매칭 단계에서는 인구 ≥ 1 000인 도시를 우선 매칭했으며, 매칭되지 않은 경우 행정구역·도로·관광지·건물 등 모든 유형을 대상으로 두 번째 매칭을 수행했다. 매칭 기준은 트위터 위치의 중심점(바운딩 박스)과 Geonames 좌표 간 거리 ≤ 50 km이며, 최종적으로 1 128 662개의 고유 트위터 위치 중 521개(≈0.05 %)만 매칭에 실패해 데이터에서 제외되었다. 매칭된 위치는 도시·국가·행정구역 등 다양한 레벨을 포함하며, 각 레벨별 매칭 비율은 표 1에 제시된 바와 같다.
이후 이동 이벤트를 기반으로 두 종류의 네트워크를 구축했다. 첫 번째는 도시·지점 레벨 네트워크로, 87 856개의 정점(도시·관광지·행정구역 등)과 7 688 854개의 가중치 간선(이동 횟수)으로 구성되었다. 두 번째는 국가 레벨 네트워크로, 248개의 국가 정점과 12 449개의 간선으로 이루어졌다. 각 네트워크는 방향성 그래프와 무방향성 그래프 두 형태로 저장했으며, 무방향성 그래프는 양방향 이동 횟수를 합산한다.
네트워크 시각화와 기본 통계 분석 결과, 대륙별로 가장 높은 트위터 침투율(인구 대비 트위터 사용자 비율) 국가와 가장 빈번한 국가 간 이동 흐름을 도출했다. 예를 들어 유럽에서는 영국‑스페인(4.4 % 침투), 아프리카에서는 보츠와나‑남아프리카(2.9 %), 북미에서는 미국‑캐나다(3.7 %), 남미에서는 아르헨티나‑브라질(3.6 %), 아시아에서는 인도네시아‑말레이시아(4.1 %)가 각각 최고 침투율 및 주요 이동 경로로 나타났다. 이러한 초기 결과는 트위터 데이터가 실제 인간 이동을 반영하고 있음을 시사하지만, 트위터 사용률이 국가마다 크게 차이나는 점을 감안하면 침투율 기반 정규화가 필수적이다. 또한, 동일 대도시 내 인접 위치 간 이동을 하나의 메타노드로 통합하면 지역 이동 잡음이 감소할 것으로 기대된다.
논의 섹션에서는 트위터 데이터의 장점(실시간성, 공개 접근성, 도시·지역 수준 세밀한 이동 파악)과 한계(저소득 국가에서의 낮은 사용자 비율, 스팸·봇에 의한 왜곡 가능성, 언어·문화 다양성에 따른 내용 분석 어려움)를 정리한다. 현재는 트윗 내용 자체를 활용하지 않았으나, 향후 비유럽어 지원 및 자동 토픽 분류 모델을 구축하면 이동 동기와 연계된 사회적·정책적 인사이트를 얻을 수 있다. 예를 들어 기후 변화에 대한 논의가 활발한 사용자는 장거리 이동을 적게 하는지, 혹은 정치적 활동을 언급하는 사용자는 특정 국가 간 이동을 회피하는지 등을 분석할 수 있다.
결론적으로, 본 연구는 기존 이동 데이터와 비교해 규모·시간·공개성 면에서 우수한 트위터 기반 이동 네트워크를 최초로 구축했으며, 향후 정규화·내용 분석·실시간 응용을 통해 인도주의 지원, 전염병 확산 모델링, 난민 흐름 예측 등 다양한 사회적 가치를 창출할 잠재력을 제시한다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기