소셜링크 예측을 위한 메타데이터 기반 사용자 유사성

이 논문은 Flickr와 Last.fm에서 사용자가 부여한 태그와 그룹 정보를 활용해 사용자 간 의미적 유사성을 측정하고, 이러한 유사성이 사회적 연결(친구 관계) 예측에 얼마나 효과적인지를 실증적으로 검증한다. 넓은 활동 이질성을 보정한 널 모델을 도입해 순수한 어휘·주제 정렬을 추출하고, 다양한 유사도 지표를 비교한 결과, 특히 활발한 사용자들의 경우 의미 기반 예측이 Last.fm 자체 추천보다 뛰어나다는 결론을 제시한다.

저자: - Rossano Schifanella¹* - Alain Barrat²³ - Ciro Cattuto³ - Benjamin Markines⁴ - Filippo Menczer³⁴ ¹ Department of Computer Science, University of Turin, Italy ² Centre de Physique Théorique (CNRS UMR 6207)

소셜링크 예측을 위한 메타데이터 기반 사용자 유사성
본 논문은 Web 2.0 시대에 사용자들이 자유롭게 부여하는 태그와 그룹이라는 경량 메타데이터가 사회적 네트워크와 어떻게 상호작용하는지를 체계적으로 분석한다. 연구 대상은 Flickr와 Last.fm이라는 두 대표적인 소셜 미디어 플랫폼이며, 두 서비스 모두 사용자‑태그(또는 사용자‑아이템‑태그) 관계와 명시적인 친구·연락망 정보를 동시에 제공한다는 점에서 선택되었다. 데이터 수집 단계에서 저자들은 Flickr API와 자체 크롤러를 이용해 2004‑2006년 사이에 업로드된 사진과 그에 대한 태그, 그룹 멤버십, 그리고 사용자 간 연락 정보를 확보했다. 최종적으로 G₀(태그·그룹·연락 정보를 모두 가진 118 144명)와 G₁(이웃까지 확장된 983 778명) 두 네트워크를 구축하였다. Last.fm에서는 2009년 초에 99 405명의 사용자 중 52 452명이 최소 하나의 태그를 부여한 데이터를 확보했으며, 총 10 936 545개의 (사용자, 아이템, 태그) 삼중항과 66 429개의 그룹 정보를 수집했다. 첫 번째 분석은 사용자 활동의 이질성을 파악하는 것이었다. 네 가지 주요 활동 지표—친구 수(k), 고유 태그 수(n_t), 그룹 수(n_g), 전체 태그 할당 수(a)—는 모두 멱법칙 형태의 긴 꼬리 분포를 보였으며, 평균값과 분산이 크게 차이났다. 특히, 활동이 활발한 사용자는 사회적 차수도 높아지는 경향이 있었으며, Pearson 상관계수는 k와 n_t(0.349), k와 n_g(0.482), n_t와 a(0.753) 등 전반적으로 양의 상관을 나타냈다. 이는 ‘assortative mixing’ 현상의 전형적인 예시로, 활동량이 높은 사용자가 서로 연결되는 구조적 특성을 시사한다. 다음으로 저자들은 지역적 어휘·주제 정렬을 정량화하기 위해 두 단계의 접근법을 사용했다. 첫째, 실제 네트워크에서 인접한 사용자 쌍이 공유하는 태그와 그룹의 비율을 직접 계산했다. 둘째, 동일한 활동량을 유지하면서 태그와 그룹 할당을 무작위로 재배치하는 널 모델을 설계해, 순수한 통계적 기대치와 비교했다. 이 널 모델은 사용자별 태그·그룹 빈도를 보존하므로, 관측된 정렬이 단순히 활동량 차이에 기인한 것이 아님을 검증한다. 결과는 두 플랫폼 모두에서 인접 사용자 쌍이 무작위 대비 현저히 높은 공유 비율을 보였으며, 거리(d)가 증가함에 따라 정렬 정도가 급격히 감소함을 확인했다. 정렬 정도를 기반으로 실제 사회적 링크를 예측하는 단계에서는 다양한 의미 기반 유사도 지표를 적용했다. Jaccard, Cosine, TF‑IDF 가중치 기반 유사도 외에도, 저자들이 제안한 Maximum Information Path (MIP) 알고리즘을 사용했다. MIP는 사용자‑태그 이중 행렬을 그래프로 해석하고, 두 사용자 사이의 가장 정보량이 큰 경로를 찾아 유사도를 산출한다. 이는 희소하고 의미 있는 태그 조합을 강조함으로써 기존 유사도보다 더 정교한 관계를 포착한다. Last.fm 데이터에 대해 교차 검증 방식으로 링크 예측 실험을 수행했다. 평가 지표는 AUC와 Precision@k이며, 비교 대상은 Last.fm이 제공하는 ‘neighbor suggestion’ 시스템이다. 실험 결과, 특히 활동이 많은 상위 10 % 사용자에 대해 모든 의미 기반 지표가 기존 시스템을 능가했으며, MIP와 TF‑IDF 기반 유사도가 가장 높은 AUC(0.84 이상)를 기록했다. 이는 메타데이터만으로도 사용자 간 관심사 유사성을 효과적으로 추정할 수 있음을 입증한다. 논문의 주요 기여는 다음과 같다. (1) 사용자 활동과 사회적 중심성 사이의 복합적 상관관계를 정량화하고, 이를 보정한 널 모델을 제시함으로써 순수한 의미 정렬을 분리했다. (2) 태그와 그룹이라는 두 차원의 메타데이터를 동시에 고려해 지역적 어휘·주제 정렬을 측정하고, 거리 의존성을 실증했다. (3) 의미 기반 유사도가 실제 사회적 링크 예측에 유용함을 대규모 실험을 통해 입증했으며, 특히 확장성이 높은 MIP가 실용적임을 보여준다. 이러한 결과는 소셜 미디어에서 사용자 맞춤형 추천, 커뮤니티 탐색, 네트워크 기반 마케팅 등에 직접 적용 가능하며, 메타데이터 중심의 사회-시맨틱 분석이 향후 연구와 실무에 중요한 도구가 될 수 있음을 시사한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기