버스티니스 스케일: 간결한 랜덤 이벤트 시계열 모델
본 논문은 웹 상의 이메일 대화, 트위터 해시태그 등 다양한 랜덤 시계열(RSE)을 두 개의 독립적인 과정, 즉 균일 포아송 과정과 자기흥분형 Self‑Feeding Process(SFP)로 혼합해 설명하는 버스티니스 스케일(BuSca) 모델을 제안한다. 두 파라미터만으로 각 RSE가 얼마나 ‘버스티’한지(폭발적·바이럴 효과) 를 정량화하고, 빠른 추정 알고리즘을 통해 실제 8개 데이터셋에 적용해 높은 적합도를 입증한다.
저자: Rodrigo A S Alves, Renato Assunc{c}~ao, Pedro O S Vaz de Melo
본 논문은 웹 기반 인간 활동 데이터를 모델링하는 새로운 접근법인 버스티니스 스케일(BuSca) 모델을 제시한다. 저자들은 기존 연구에서 포아송 과정과 자기흥분 과정(Hawkes, SFP 등) 사이에 존재하는 모순을 인식하고, 두 과정을 독립적으로 혼합함으로써 RSE(Random Series of Events)를 보다 간결하게 설명하고자 한다.
1. **배경 및 동기**
인간의 온라인 행동은 때때로 일정하고 예측 가능한 패턴을 보이며(예: 업무 시간 동안의 이메일), 때때로 급격한 폭발과 긴 침체를 반복한다(예: 바이럴 트윗). 포아송 과정은 이러한 일정성을, 자기흥분 과정은 버스티성을 각각 설명한다. 그러나 기존 모델은 각각을 별도로 적용하거나, 다수의 파라미터를 도입해 복잡성을 증가시켰다.
2. **모델 정의**
BuSca는 두 독립 과정의 합으로 정의된다.
- **포아송 과정(PP)**: 고정된 도착률 λ를 갖는 균일 포아송 프로세스. 사건 간 간격은 지수분포이며, 서로 독립이다.
- **Self‑Feeding Process(SFP)**: 한 단계 전 간격 Δtₙ₋₁ 에 비례하는 조건 강도 λₛ(t)=μ/Δtₙ₋₁ 로 정의되는 자기흥분 프로세스. 최근에 짧은 간격이 발생하면 이후 간격이 더욱 짧아지는 피드백 메커니즘을 제공한다.
두 과정은 각각의 사건 집합을 생성하고, 최종 관측 시계열은 두 집합의 합집합이다.
3. **파라미터 추정**
전체 로그우도 L(λ,μ) 를 최대화하는 것이 기본 목표이다. 직접 MLE를 적용하면 μ에 대한 편향이 발생함을 발견하고, EM‑like 알고리즘을 설계했다.
- **E‑step**: 현재 λ, μ 로 각 사건이 PP 혹은 SFP에 속할 사후 확률 γᵢ를 계산한다.
- **M‑step**: γᵢ 를 가중치로 사용해 λ̂ = (∑γᵢ_PP)/T, μ̂ = (∑γᵢ_SFP)/ (∑γᵢ_SFP·Δtₙ₋₁) 로 업데이트한다.
이 과정을 로그우도 수렴까지 반복한다.
4. **버스티니스 스케일 ψ**
추정된 파라미터로부터 ψ = μ/(λ+μ) 를 정의한다. ψ∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기