소셜 미디어 콘텐츠 확산을 위한 계층적 비모수 포인트 프로세스

본 논문은 사용자 간 상호작용을 고려한 다차원 Hawkes 프로세스와 계층적 비모수 클러스터링을 결합한 HNP3 모델을 제안한다. 시간은 점 과정으로, 토픽은 마크로 다루며, 토픽 수는 데이터에 따라 무한히 확장될 수 있다. 온라인 collapsed Sequential Monte Carlo 추론을 통해 실시간으로 영향력 네트워크와 토픽 동역학을 추정하고, 합성·실제 뉴스 데이터에서 기존 방법보다 우수한 예측 성능을 입증한다.

저자: Seyed Abbas Hosseini, Ali Khodadadi, Soheil Arabzade

소셜 미디어 콘텐츠 확산을 위한 계층적 비모수 포인트 프로세스
본 논문은 소셜 미디어에서 사용자들이 생성하고 공유하는 콘텐츠의 시간적 전파와 내용적 변화를 동시에 모델링하기 위해 ‘Hierarchical Nonparametric Point Process (HNP3)’라는 새로운 프레임워크를 제안한다. 기존 연구들은 주로 (1) 단일 소스에 대한 시간 모델링, (2) 토픽이 미리 정의된 경우의 내용 모델링, 혹은 (3) 시간만을 고려한 Hawkes 기반 전파 모델에 머물렀다. 이러한 접근법은 실제 소셜 네트워크가 다수의 사용자 간 상호작용을 통해 복합적인 토픽이 지속적으로 등장·소멸하고, 토픽별 전파 속도가 서로 다르다는 사실을 반영하지 못한다. HNP3는 두 층의 모델링을 결합한다. 첫 번째 층은 다차원 Hawkes 프로세스를 사용해 이벤트 발생 시점을 기술한다. 각 사용자 u에 대해 기본 강도 μ_u가 외부(자발적) 이벤트를, α_us가 사용자 s의 이벤트가 u에게 미치는 영향을 나타낸다. 이벤트가 특정 토픽 k와 연관될 경우, 해당 토픽의 전파 속도를 제어하는 지수 커널 κ_k(t‑t_s)=e^{‑β_k(t‑t_s)}가 적용되어, 토픽마다 서로 다른 감쇠율 β_k를 학습한다. 이렇게 하면 동일 토픽이라도 네트워크 내에서 빠르게 퍼지는 경우와 느리게 퍼지는 경우를 구분할 수 있다. 두 번째 층은 이벤트의 마크인 토픽을 계층적 비모수 클러스터링으로 다룬다. 사용자는 과거에 자신이 사용한 토픽 ψ_uk의 가중된 사용 횟수 n_uk(t)에 비례해 기존 토픽을 재사용하거나, 새로운 토픽을 선택할 확률 γ에 따라 전혀 새로운 토픽을 도입한다. 새로운 토픽은 전체 네트워크에서 토픽의 인기도를 나타내는 m_k(t) (가중된 신규 토픽 발생 횟수) 기반의 디리클레 분포에서 샘플링된다. 이 구조는 Recurrent Chinese Restaurant Franchise Process(RCRFP)를 확장한 것으로, (a) 사용자 간 토픽 공유, (b) 토픽 수의 무한 확장, (c) 시간에 따라 변하는 토픽 인기도를 동시에 모델링한다. 모델의 생성 과정은 다음과 같다. 1) 각 사용자는 μ_u와 α_us에 의해 Hawkes 강도를 계산하고, 이전 이벤트들의 트리 구조와 토픽을 고려해 새로운 이벤트 발생 시점을 샘플링한다. 2) 이벤트가 외생(자발적)인지 내생(다른 이벤트에 의해 촉발)인지에 따라 토픽 할당이 결정된다. 외생 이벤트는 사용자의 토픽 선호 분포 G_tu에서 샘플링하고, 내생 이벤트는 트리 상위 이벤트와 동일 토픽을 공유한다. 3) 선택된 토픽에 따라 문서 내용은 해당 토픽의 단어 분포 φ_k에서 생성된다. 추론은 온라인 환경을 가정하고 설계되었다. 저자는 collapsed Sequential Monte Carlo(SMC) 방법을 활용해 전역 변수(β_k 등)를 제외한 로컬 변수(s_i, z_i)를 파티클 집합으로 추정한다. 각 파티클은 현재까지 관측된 이벤트들의 트리와 토픽 할당을 보유하며, 새로운 이벤트가 도착하면 사후 분포 p(s_{n+1},z_{n+1}|·)를 제안 분포로 사용해 샘플링하고 가중치를 업데이트한다. 전역 파라미터 β_k는 파티클들의 가중 평균을 통해 베이지안 추정한다. 이 방식은 전역 변수에 대한 직접 샘플링을 피함으로써 계산 복잡도를 크게 낮추고, 실시간 스트리밍 데이터에도 적용 가능하게 만든다. 실험은 두 부분으로 나뉜다. 첫 번째는 합성 데이터 실험으로, 10⁴개의 이벤트를 생성해 모델이 α, μ, β를 얼마나 정확히 복원하는지 평가한다. 초기 1,000 이벤트에서는 기존 Hawkes와 비슷한 성능을 보였지만, 토픽과 커널을 학습한 이후에는 평균 절대 오차가 크게 감소했다. 두 번째는 실제 데이터 실험이다. 저자는 3개월 동안 100개의 뉴스 웹사이트에서 수집한 100,000개의 기사 데이터를 사용해 HNP3를 적용했다. 실험 결과는 다음과 같다. (1) 토픽 추출 정확도: HNP3는 새로운 토픽이 등장하는 시점을 정확히 포착하고, 기존 토픽의 인기 변화를 실시간으로 추적한다. (2) 시간 예측: 다음 이벤트 발생 시점에 대한 로그우도와 평균 절대 오차가 기존 Hawkes 기반 모델보다 현저히 우수했다. (3) 영향력 네트워크 추정: α 행렬을 복원하는 데 있어 정밀도와 재현율이 모두 높은 값을 기록했다. 논문의 기여는 크게 세 가지로 정리할 수 있다. 첫째, 다차원 Hawkes와 계층적 비모수 마크 모델을 결합해 시간·내용·네트워크 3차원을 동시에 다루는 통합 프레임워크를 제시했다. 둘째, 온라인 collapsed SMC를 이용한 효율적인 추론 알고리즘을 개발해 대규모 스트리밍 데이터에 적용 가능하도록 했다. 셋째, 실제 대규모 뉴스 데이터에 적용해 토픽 동역학, 사용자 관심 변화, 그리고 사용자 간 영향력 구조를 정량적으로 분석함으로써 기존 방법보다 실용적인 성능 향상을 입증했다. 한계점으로는 커널을 지수 형태에 고정한 점, 토픽 간 상호작용을 명시적으로 모델링하지 않은 점, 그리고 파라미터 γ와 ν 등 하이퍼파라미터 선택이 결과에 민감할 수 있다는 점을 들 수 있다. 향후 연구에서는 (a) 파워 로우나 가우시안 혼합 등 다양한 커널을 도입해 토픽 전파 메커니즘을 더 정교화하고, (b) 토픽 간 전이 행렬을 추가해 복합적인 내용 흐름을 모델링하며, (c) 자동 하이퍼파라미터 튜닝 기법을 통합해 모델의 적용 범위를 확대하는 방향이 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기