트위터 사용자 리스트 큐레이션 지원 시스템
초록
본 논문은 언론·기관이 뉴스 주제별 트위터 리스트를 효율적으로 확장할 수 있도록, 팔로워·멘션·리트윗·공동리스트 등 네 가지 네트워크 뷰를 결합한 추천 프레임워크를 제안한다. SVD 기반 순위 통합과 인간‑인‑루프 과정을 통해 초기 시드 리스트를 자동으로 보강하고, 이 과정의 정확성을 아이오와 코커스와 바레인 사태 사례로 검증한다.
상세 분석
이 연구는 트위터 리스트 큐레이션이라는 실무적 문제를 네트워크 과학적 관점에서 체계화한다. 핵심 아이디어는 “멀티‑뷰” 접근법으로, 동일한 사용자 집합을 네 가지 그래프(코어 팔로워, 코어 멘션, 코어 리트윗, 가중 공동리스트)로 모델링하고, 각각에 대해 서로 다른 중심성 지표를 적용한다는 점이다.
-
코어 팔로워 그래프는 시드 사용자와 그 팔로워 관계를 직접적으로 포착한다. 여기서는 정규화된 인‑디그리와 HITS with priors를 사용해, 시드 집합에 대한 상대적 권위성을 강조한다. 정규화는 로그‑TF‑IDF 방식으로 고도 팔로워 수를 억제해, 특정 분야에 특화된 중간 규모 사용자를 놓치지 않게 한다.
-
코어 멘션 그래프와 코어 리트윗 그래프는 각각 멘션·리트윗 행위를 가중치가 있는 방향성 엣지로 변환한다. 두 그래프 모두 “가중 인‑디그리”를 적용해, 시드 사용자에게 자주 언급·리트윗된 비코어 사용자를 높은 점수로 부여한다. 멘션은 대화 흐름, 리트윗은 정보 확산을 반영하므로, 서로 보완적인 신호를 제공한다.
-
가중 공동리스트 그래프는 기존 연구에서 거의 다루어지지 않은 시각이다. 여러 사용자가 동일한 외부 리스트에 동시에 포함되는 빈도를 Jaccard 유사도로 측정하고, 코어·비코어 사용자 쌍에 가중치를 누적한다. 이는 군중 지능 기반의 ‘연관성’ 신호를 제공해, 전통적인 팔로워·멘션·리트윗 관계와는 다른 차원의 연결성을 드러낸다.
각 그래프‑지표 조합으로 얻은 순위 행렬을 사용자‑순위 형태의 행렬 X에 배치하고, 특이값 분해(SVD)를 수행한다. 첫 번째 좌측 특이벡터는 다중 뷰의 정보를 압축한 통합 점수를 제공하며, 이를 내림차순 정렬해 최종 추천 리스트를 만든다.
시스템은 세 단계(부트스트랩 → 추천 → 업데이트)로 순환한다. 부트스트랩 단계에서는 시드 사용자의 팔로워·리스트·최근 트윗을 수집해 코어와 후보 집합을 형성한다. 추천 단계에서는 위에서 설명한 멀티‑뷰 순위와 SVD 통합을 수행한다. 업데이트 단계에서는 새로 추가된 코어 사용자와 최근에 많이 언급된 사용자들을 다시 탐색해 네트워크를 최신화한다. 이 반복 구조는 API 호출 제한을 고려해 탐색 깊이와 조회량을 파라미터화함으로써 실용성을 확보한다.
실험은 두 개의 실제 리스트(아이오와 코커스, 바레인 사태)를 사용해 교차 검증하였다. 아이오와 데이터셋에서는 128명 전체 리스트를 4개의 서브셋(각 32명)으로 나누고, 6번의 반복 후 각각 30명의 신규 코어 사용자를 자동 선택했다. 정밀도는 0.880.97 사이, 재현율은 0.270.48 사이로, 리스트 규모가 늘어나도 정밀도가 크게 감소하지 않음을 보여준다. 바레인 사례에서는 ‘실리오’ 효과(편향된 시드에서 시작해 다양한 관점을 포착할 수 있는가)를 검증했으며, 멀티‑뷰 통합이 단일 뷰 대비 편향을 완화한다는 결과를 제시한다.
핵심 기여는 (1) 팔로워·멘션·리트윗·공동리스트라는 네 가지 상보적 네트워크 뷰를 체계적으로 결합한 추천 파이프라인, (2) SVD 기반 순위 통합을 통한 간결하면서도 효과적인 후보 선정 메커니즘, (3) 실제 언론 기관의 워크플로우에 맞춘 API 제한 고려와 인간‑인‑루프 설계이다. 한계로는 트위터 API 제한에 따른 샘플링 편향, 그리고 정량적 평가지표가 리스트 ‘다양성’이나 ‘편향성’ 같은 질적 측면을 충분히 반영하지 못한다는 점을 들 수 있다. 향후 연구에서는 텍스트 기반 내용 분석과 사용자 프로필 메타데이터를 결합해 다차원적 품질 평가를 도입하고, 실시간 스트리밍 환경에서의 확장성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기