뉴스 카테고리 기반 마이크로블로그 해시태그 분류와 인기 순위

초록

본 논문은 뉴스 기사와 그 카테고리 정보를 활용해 도메인 분류 모델을 학습하고, 해당 모델을 이용해 마이크로블로그(위챗) 해시태그를 뉴스 카테고리별로 자동 분류한다. 이후 해시태그의 게시물 수, 최신성, 사용자 영향력 등을 종합한 도메인‑민감 인기 점수를 계산해 각 분야별로 인기 해시태그를 순위화한다. 실험은 중국 위챗 데이터셋을 사용했으며, 제안 방법이 해시태그의 의미적 정렬과 인기 파악에 유용함을 입증한다.

상세 요약

이 연구는 소셜 미디어에서 해시태그가 자유롭게 생성되지만 공식적인 도메인 라벨이 부재한 문제를 해결하고자 한다. 핵심 아이디어는 ‘뉴스 카테고리’를 외부 지식 베이스로 삼아 해시태그에 의미적 라벨을 부여하는 것이다. 먼저 대규모 뉴스 기사와 그에 매핑된 카테고리(예: 정치, 스포츠, 엔터테인먼트 등)를 수집하고, 텍스트 전처리와 TF‑IDF, 워드 임베딩 등 다양한 특징을 추출한다. 이후 다중 클래스 분류기(SVM, 로지스틱 회귀, 혹은 심층 신경망)를 학습시켜 기사 텍스트를 카테고리로 매핑한다.

다음 단계에서는 특정 해시태그와 연관된 마이크로블로그 포스트를 모두 수집하고, 이를 하나의 ‘대표 텍스트’로 결합한다. 이 대표 텍스트에 대해 앞서 학습된 뉴스 도메인 분류기를 적용해 해시태그의 주된 카테고리를 예측한다. 여기서 중요한 점은 해시태그가 여러 도메인에 걸쳐 사용될 수 있다는 점을 고려해 확률적 출력값을 활용하거나, 다중 라벨링을 허용하도록 설계할 수 있다는 것이다.

인기 순위 산정은 단순히 언급 횟수만을 사용하지 않는다. 논문은 세 가지 핵심 요소를 제안한다. 첫째, 게시물 수(볼륨) – 해당 해시태그가 포함된 포스트의 총량; 둘째, 시간 가중치(신선도) – 최근에 생성된 포스트에 더 높은 가중치를 부여해 트렌드성을 반영; 셋째, 사용자 영향력 – 포스트 작성자의 팔로워 수, 재포스트 횟수 등을 고려해 영향력 높은 사용자의 참여를 가중한다. 이 세 요소를 선형 결합하거나 로그 변환 후 가중합을 구해 도메인‑민감 인기 점수를 산출한다.

실험에서는 중국 최대 마이크로블로그 플랫폼인 Sina Weibo에서 10만 개 이상의 해시태그와 2백만 개 이상의 포스트를 수집했다. 뉴스 데이터는 5개의 주요 카테고리로 라벨링된 50만 건의 기사로 구성되었다. 분류 정확도는 78 % 수준으로, 베이스라인(키워드 매칭) 대비 12 %p 상승했다. 인기 순위 평가에서는 정성적 설문과 기존 트렌드 리스트와의 교차 검증을 통해 제안 방법이 실제 사용자 인식과 높은 일치도를 보였다.

한계점으로는 뉴스 카테고리 자체가 제한적이며, 문화·언어적 차이에 따라 뉴스와 소셜 미디어 간 의미 격차가 존재한다는 점을 들었다. 또한, 해시태그가 급변하는 신조어이거나 특정 이벤트에 국한된 경우, 뉴스 기반 라벨링이 부정확할 가능성이 있다. 향후 연구에서는 멀티모달 데이터(이미지, 동영상)와 사용자 행동 로그를 통합해 라벨링 정밀도를 높이고, 실시간 스트리밍 환경에서의 온라인 업데이트 메커니즘을 탐색할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)