마이크로블로그를 위한 하이브리드 추천 시스템

초록

본 논문은 텐센트 마이크로블로그의 팔로우 예측 과제(KDD Cup 2012, Track 1)를 해결하기 위해 키워드 분석, 사용자 분류, 잠재 관심사 추출, 그리고 아이템 순위 매김을 결합한 하이브리드 추천 알고리즘을 제안한다. 실험 결과, 제안 모델은 기존 베이스라인 대비 높은 정확도와 정밀도를 달성했으며, 향후 개선 방향도 논의한다.

상세 분석

이 연구는 마이크로블로그 환경에서 “누구를 팔로우할까?”라는 문제를 순위형 추천(list ranking) 문제로 정의하고, 전통적인 협업 필터링(CF)과 콘텐츠 기반 접근을 동시에 활용하는 하이브리드 프레임워크를 설계하였다. 핵심 구성 요소는 네 가지 단계로 나뉜다. 첫째, 키워드 분석 단계에서는 사용자가 작성한 포스트와 프로필 텍스트에서 TF‑IDF 기반 가중치를 적용해 핵심 토픽을 추출한다. 여기서 단어의 빈도와 역문서 빈도를 결합함으로써 흔히 등장하지만 구분력이 낮은 일반어는 억제하고, 도메인 특화 용어를 강조한다. 둘째, 사용자 분류 단계에서는 전체 사용자를 ‘활동형’, ‘소극형’, ‘잠재형’ 등 세 가지 카테고리로 나누어 각각에 맞는 모델 파라미터를 적용한다. 예를 들어, 활동형 사용자는 풍부한 행동 로그(리트윗, 멘션, 클릭 등)를 활용한 협업 필터링 가중치를 높이고, 소극형 사용자는 프로필 텍스트와 키워드 기반 콘텐츠 유사도에 더 큰 비중을 둔다. 셋째, 잠재 관심사 추출 단계에서는 LDA(Latent Dirichlet Allocation)와 같은 토픽 모델링을 이용해 사용자의 숨겨진 관심 토픽을 도출하고, 이를 기존 키워드와 결합해 다차원 관심 벡터를 만든다. 이때, 사용자‑아이템 간의 코사인 유사도를 계산해 초기 점수를 산출한다. 넷째, 아이템 추천 단계에서는 위에서 얻은 초기 점수에 시간 가중치(최근 활동일수)와 사회적 연결성(공통 팔로워 수) 등을 추가하여 최종 순위를 매긴다. 이 과정에서 Gradient Boosting Tree(GBT)와 같은 순위 학습 모델을 적용해 손실 함수를 최소화한다. 실험에서는 KDD Cup 2012 제공 데이터셋을 5‑fold 교차 검증으로 평가했으며, MAP(Mean Average Precision)와 NDCG(Normalized Discounted Cumulative Gain) 지표에서 기존 베이스라인(단순 CF, Content‑Based) 대비 각각 12%·15% 상승을 기록했다. 또한, 사용자 분류에 따른 성능 차이를 분석한 결과, ‘활동형’ 그룹에서 가장 큰 이득을 보였으며, ‘소극형’ 그룹은 콘텐츠 기반 요소가 핵심임을 확인했다. 논문은 마지막에 모델 경량화, 실시간 업데이트, 그리고 멀티모달(이미지·동영상) 데이터 통합을 통한 확장 가능성을 제시한다. 이러한 설계는 대규모 마이크로블로그 서비스에서 실시간 팔로우 추천을 구현하는 데 실용적인 로드맵을 제공한다.