트위터 사용자 참여 예측을 위한 협업 순위 학습
초록
본 논문은 트위터에서 사용자가 올린 영화 관련 트윗의 리트윗·좋아요 수(사용자 참여)를 예측하기 위해 협업 순위(Learning‑to‑Rank) 프레임워크를 적용한다. 사용자·아이템·트윗 메타데이터를 기반으로 16개의 특징을 추출하고, nDCG@10을 직접 최적화하는 LambdaMART와 MART를 앙상블해 순위 모델을 학습한다. 실험 결과, 제안 방법(CRUE)은 nDCG@10 0.87을 달성해 기존 베이스라인(FM, 단순 평점 기반 추천 등)보다 우수함을 보인다.
상세 분석
이 연구는 전통적인 협업 필터링이 주로 평점 예측 혹은 Top‑N 아이템 추천에 초점을 맞추는 한계를 인식하고, “사용자 참여”(리트윗+좋아요)라는 새로운 목표 함수를 설정한다. 트위터라는 소셜 미디어 환경에서는 아이템(영화)과 사용자 간의 상호작용이 트윗이라는 텍스트와 메타데이터에 풍부히 내재되어 있다. 논문은 이러한 메타데이터를 활용해 16개의 정량·이진 특징을 설계했으며, 여기에는 사용자 평점, 평점 편차, 사용자 평균 참여, 친구·팔로워 비율, 트윗 수, 아이템별 평균 참여·평점, 멘션·리트윗 여부 등 다양한 사회적·콘텐츠적 요인이 포함된다.
특히, 학습 목표를 nDCG@10과 같은 정보 검색 지표에 직접 매핑한 점이 핵심이다. 기존의 행렬 분해 기반 방법은 손실 함수를 평점 오차 혹은 순위 손실로 정의하지만, nDCG는 순위의 품질을 등급(참여 수)과 위치 가중치를 동시에 고려한다. 이를 위해 논문은 LambdaMART를 선택했으며, LambdaMART는 λ‑gradient를 이용해 순위 손실을 미분 가능한 형태로 변환해 그래디언트 부스팅 트리(GBRT) 기반 모델을 학습한다. 또한 MART를 병렬 앙상블함으로써 모델의 편향‑분산 트레이드오프를 조절하고 과적합을 방지한다.
데이터 전처리 단계에서는 사용자별 인터랙션 수가 4 미만이거나 200 초과인 경우를 제외해 노이즈를 감소시켰다. 이는 트위터 데이터가 사용자별 활동량에 큰 편차를 보이는 현실을 반영한다. 하이퍼파라미터 튜닝은 80‑20 학습‑검증 분할을 통해 수행했으며, 트리당 리프 수 10, 학습률 0.1, 조기 종료 기준을 nDCG@10 개선이 50 라운드 연속 없을 때로 설정했다.
실험 결과는 두드러진데, 단순히 평점을 사용한 recRating 모델조차 nDCG@10 0.8182를 기록해 강력한 베이스라인이 된다. 그러나 제안한 CRUE 모델은 0.87을 달성해 약 6%p 향상을 보인다. 이는 메타데이터 기반 특징과 순위 최적화가 사용자 참여 예측에 실질적인 가치를 더한다는 것을 입증한다. 또한, FM(Factorization Machine)보다도 낮은 성능을 보였으며, 이는 전통적인 행렬 분해가 풍부한 메타데이터를 충분히 활용하지 못함을 시사한다.
이 논문의 의의는 (1) 협업 필터링을 순위 학습으로 확장해 새로운 평가 지표를 직접 최적화한 점, (2) 트위터와 같은 소셜 플랫폼에서 메타데이터를 체계적으로 특징화한 점, (3) 실험을 통해 제안 방법이 실제 추천 시스템의 핵심 성과 지표인 사용자 참여를 효과적으로 예측한다는 점이다. 향후 연구에서는 텍스트 내용(예: 감성, 주제)과 시계열적 행동 변화를 추가해 모델을 확장하거나, 실시간 스트리밍 환경에서 온라인 학습으로 전환하는 방안을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기