소셜 미디어 뉴스 인기 예측
초록
본 논문은 뉴스 기사 공개 전, 기사 자체 속성(제목, 길이, 출처 등)과 외부 메타데이터를 활용해 트위터 상의 확산 규모를 예측한다. 다차원 피처를 구축하고 회귀·분류 모델을 비교한 결과, 84% 수준의 정확도로 인기 구간을 구분할 수 있음을 보였다. 전통적 언론과 소셜에서 폭발적 인기를 얻는 매체 간 차이도 분석한다.
상세 분석
이 연구는 “사전 예측”이라는 목표 아래, 뉴스 기사가 실제 공개되기 전 단계에서 가능한 피처들을 체계적으로 정의하고, 이 피처들이 트위터 상에서의 공유·리트윗 수와 어떤 상관관계를 갖는지를 정량적으로 검증한다. 먼저 데이터 수집 단계에서 2012년~2014년 사이에 주요 뉴스 포털과 소셜 미디어(특히 트위터)에서 동시에 등장한 5,000여 건의 기사 데이터를 확보하였다. 각 기사에 대해 (1) 텍스트 기반 피처(제목 길이, 키워드 빈도, 감성 점수 등), (2) 메타 피처(출처 신뢰도, 발행 시간, 카테고리), (3) 저자·편집자 정보, (4) 과거 동일 출처의 평균 공유량 등 네 가지 차원으로 30여 개의 변수를 추출하였다.
피처 전처리 과정에서는 TF‑IDF 가중치를 적용한 단어 벡터와 감성 사전을 활용한 긍정·부정 점수를 결합했으며, 시간대별 트위터 활동량을 정규화해 시간 편향을 최소화하였다. 모델링 단계에서는 선형 회귀, 라쏘 회귀, 랜덤 포레스트 회귀, Gradient Boosting Machine(GBM) 등 네 가지 회귀 알고리즘과, 로지스틱 회귀, 서포트 벡터 머신, XGBoost 기반 분류기를 적용하였다. 회귀 모델은 실제 공유 수를 직접 예측하고, 분류 모델은 “저인기·중인기·고인기” 세 구간으로 라벨링된 데이터를 학습한다.
평가 지표는 회귀에서는 평균 절대 오차(MAE)와 결정계수(R²), 분류에서는 정확도와 F1‑score를 사용하였다. 실험 결과, 랜덤 포레스트 회귀가 MAE 0.18, R² 0.62로 가장 우수했으며, XGBoost 기반 다중 클래스 분류기가 84% 정확도와 0.81의 매크로 F1‑score를 기록하였다. 특히 피처 중요도 분석에서 “제목 감성 점수”, “출처 평균 공유량”, “발행 시간(피크 시간대 여부)”가 상위 3위에 올랐으며, 전통적인 언론사보다 소셜에서 활발히 활동하는 블로그·포럼 출처가 높은 예측 가중치를 받았다.
한계점으로는 (1) 트위터 외 다른 플랫폼(페이스북, 레딧 등)의 데이터가 포함되지 않아 일반화 가능성이 제한되고, (2) 기사 내용 자체가 변동될 경우(예: 편집 후 재공개) 모델 재학습이 필요하다는 점, (3) 인간의 감정·사회적 사건에 따른 급격한 변동을 완전히 포착하지 못한다는 점을 들 수 있다. 향후 연구에서는 멀티모달 피처(이미지·동영상 메타데이터)와 실시간 스트리밍 피드백을 결합해 예측 정확도를 높이는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기