다중 위치 프로파일링 모델을 통한 트위터 사용자 및 관계 분석

초록

본 논문은 트위터 사용자의 팔로잉 네트워크와 트윗 내용을 활용해 사용자의 다중 위치를 추정하는 MLP(Multiple Location Profiling) 모델을 제안한다. 사용자는 하나 이상의 실제 거주지를 가질 수 있으며, 각 팔로잉 관계와 트윗에 나타난 장소는 이러한 위치 중 하나와 연관될 수 있다. 부분적으로 알려진 홈 위치를 지도학습 형태로 활용해 정확도를 높였으며, 실험 결과 홈 위치 예측 정확도 62%, 다중 위치 재현율 14% 향상, 관계 설명 정확도 57%를 달성했다.

상세 요약

MLP 모델은 두 가지 핵심 확률 구조를 명시적으로 설계한다. 첫째, 사용자가 특정 위치에 있을 때 다른 사용자를 팔로우할 확률을 지리적 거리와 사회적 연결 강도에 기반한 로짓 함수로 모델링한다. 이는 기존 연구가 단일 홈 위치만을 가정하고 거리 기반 팔로잉 확률을 단순히 가중치로 적용한 것과 달리, 사용자의 다중 위치 각각에 대해 별도의 팔로잉 확률 분포를 정의함으로써 보다 현실적인 관계 설명을 가능하게 한다. 둘째, 사용자가 특정 위치에 있을 때 해당 위치와 관련된 장소(venue)를 트윗할 확률을 다항 로짓 모델로 표현한다. 여기서 ‘장소’는 트윗에 명시된 지명, 해시태그, 혹은 URL 등으로 추출되며, 각 위치마다 고유한 장소 분포를 학습한다.

MLP는 사용자의 위치 집합을 잠재 변수로 두고, 각 팔로잉 관계와 트윗을 해당 잠재 위치에 할당하는 ‘관계‑위치 매핑’ 변수를 도입한다. 이때 일부 관계와 트윗은 노이즈(예: 여행 중에 일시적으로 언급된 장소)일 가능성을 고려해 ‘노이즈 토픽’(background component)을 추가함으로써 모델이 과도하게 특정 위치에 편향되는 것을 방지한다.

부분 지도학습(supervision) 전략은 몇몇 사용자의 홈 위치가 사전에 알려져 있다는 사실을 활용한다. 알려진 홈 위치는 해당 사용자의 잠재 위치 변수에 강한 사전(prior)을 부여해, 추정 과정에서 초기값을 안정화시키고 전체 모델의 수렴 속도를 높인다. 이는 완전 비지도 방식에 비해 학습 효율과 정확도를 동시에 개선한다는 점에서 의미가 크다.

추론은 변분 베이지안(VB) 방법을 기반으로 한 EM 알고리즘으로 수행된다. E‑step에서는 현재 파라미터 하에 각 관계·트윗이 어느 위치에 기인했는지의 후방 확률을 계산하고, M‑step에서는 거리‑팔로잉 함수와 장소‑위치 분포의 파라미터를 업데이트한다. 특히 거리‑팔로잉 함수는 로그-선형 형태를 취해, 거리와 팔로잉 빈도 사이의 비선형 관계를 유연하게 학습한다.

실험에서는 1억 건 이상의 트위터 팔로잉 관계와 5천만 개 이상의 트윗을 포함하는 대규모 데이터셋을 사용했다. 베이스라인으로는 기존의 단일 위치 추정 모델과 최근의 그래프 기반 위치 예측 모델을 채택했으며, MLP는 홈 위치 정확도에서 10%p, 다중 위치 재현율에서 14%p, 관계 설명 정확도에서 57%p를 달성했다. 오류 분석 결과, 모델이 특히 사용자가 장기적으로 거주하는 두 개 이상의 도시를 동시에 보유한 경우에 높은 재현율을 보였으며, 노이즈 토픽을 도입함으로써 여행 중에 발생하는 일시적 위치 언급을 효과적으로 필터링했다.

한계점으로는 위치 후보 집합을 미리 정의해야 하는 전처리 단계와, 거리‑팔로잉 함수의 파라미터가 문화권에 따라 달라질 수 있다는 점을 들 수 있다. 향후 연구에서는 동적 위치 후보 생성과 다문화적 거리 모델링을 통해 이러한 제약을 완화할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)