트윗 인기 예측을 위한 자기흥분 점과정 모델 SEISMIC
초록
본 논문은 트위터에서 발생하는 리트윗 전파를 자기흥분 점과정(Hawkes process)으로 모델링한 SEISMIC을 제안한다. 포스트의 시간에 따라 변하는 ‘전염성(infectiousness)’ 파라미터와 인간의 반응 시간 분포(메모리 커널)를 결합해, 관측된 리트윗 이력만으로 실시간에 최종 리트윗 수를 예측한다. 학습이나 복잡한 피처 엔지니어링 없이 선형 시간 복잡도로 동작하며, 1시간 관측 후 평균 15%의 상대 오차를 달성한다.
상세 분석
SEISMIC 모델은 두 가지 핵심 구성요소를 기반으로 한다. 첫 번째는 인간의 반응 시간 분포 φ(s)이다. 저자들은 트위터 데이터에서 초기 5분간은 거의 일정한 반응 확률을 보이며, 이후에는 파워‑law 형태로 감소한다는 점을 실증한다. 이 메모리 커널은 네트워크 전체에 대해 한 번만 추정하면 되므로, 모델 적용 시 별도의 사용자별 파라미터 학습이 필요하지 않다. 두 번째는 포스트별 전염성 pₜ(w)이다. 기존 Hawkes 기반 연구는 p를 상수로 가정해 초과 임계값(p*)를 초과하면 무한히 성장한다는 이론적 한계를 갖는다. SEISMIC은 pₜ를 비정형(non‑parametric) 방식으로 시간에 따라 부드럽게 변하도록 추정함으로써, 실제 트위터에서 관찰되는 ‘폭발‑완화’ 현상을 포착한다. 구체적으로, λₜ = pₜ·∑{i≤t} n_i φ(t−t_i) 로 정의된 강도 함수는 각 이전 리트윗(i)의 팔로워 수 n_i와 그 시점까지의 반응 커널을 가중합한다. 여기서 n_i는 i번째 리트윗 사용자의 팔로워 수이며, 평균값 n를 이용해 임계 전염성 p = 1/n* 를 계산한다. pₜ가 p보다 크면 ‘초과 임계(supercritical)’ 상태라 판단하고, 이때는 최종 규모 예측이 불안정함을 명시한다. 반대로 pₜ < p이면 ‘하위 임계(subcritical)’ 상태이며, 이때는 Galton‑Watson 트리 모델을 적용해 최종 리트윗 수 R∞ 를 닫힌 형태로 추정한다.
모델 파라미터 추정은 관측된 리트윗 시계열 R_t와 n_i 를 이용해 p̂ₜ를 최대우도 방식으로 비선형 최소제곱법으로 구한다. 계산 복잡도는 O(|R_t|) 로, 실시간 대규모 트윗 스트림에 적용 가능하며, 병렬화도 용이하다. 실험에서는 1개월 전체 트위터 데이터를 사용해 기존 피처 기반 회귀, 다른 Hawkes 변형, 그리고 최신 딥러닝 기반 예측기와 비교했으며, 평균 절대 오차가 30% 이상 개선되었다. 특히 10분 관측 후에도 25% 수준의 오차를 유지하고, 1시간 관측 후 15% 이하로 감소한다. 또한, 상위 500개의 가장 많이 리트윗된 트윗 중 78%를 10분 내에 정확히 식별하는 등 ‘바이럴 트윗’ 탐지에도 뛰어난 성능을 보였다.
이 논문의 주요 기여는 (1) 전염성을 시간에 따라 변하도록 비정형 추정함으로써 실제 소셜 미디어의 동적 전파 특성을 반영, (2) 네트워크 구조에 대한 최소한의 정보(노드의 팔로워 수)만을 요구해 실용성을 높임, (3) 선형 시간 복잡도의 알고리즘을 제공해 대규모 실시간 서비스에 바로 적용 가능하게 함, (4) 모델 해석성이 높아 pₜ 값 자체가 포스트의 ‘인기 잠재력’ 지표로 활용될 수 있다는 점이다. 한계로는 φ(s)와 n_i 가 전체 네트워크에 대해 고정된다고 가정했으며, 실제로는 사용자별 반응 패턴이나 팔로워 수 분포가 시간·주제에 따라 변할 수 있다. 또한, 모델은 리트윗 외의 다른 상호작용(좋아요, 댓글 등)을 고려하지 않으며, 이러한 멀티모달 신호를 통합하면 예측 정확도가 더욱 향상될 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기