온라인 상호작용 간격의 마코프 모델링
초록
본 논문은 소셜 미디어 사용자들의 게시·댓글 간격(인터‑이벤트 타임)을 분석하고, 짧은 간격과 긴 간격을 구분한 뒤 두 상태(짧음/깁음) 마코프 체인을 도입해 메모리를 반영한 확률 모델을 제시한다. 트위터와 레딧 데이터에 적용해 기존 파워‑law 기반 모델 대비 적합도가 크게 향상됨을 실증한다.
상세 분석
이 연구는 인간의 온라인 활동이 단순한 포아송 과정이 아니라, 짧은 대기시간이 연속적으로 나타나는 ‘집중 상태’와 긴 대기시간이 뒤따르는 ‘휴식 상태’가 번갈아 가며 나타나는 이중 상태 구조를 가지고 있다는 직관에 기반한다. 저자는 먼저 전체 인터‑이벤트 타임 분포가 헤비‑테일을 보이지만, 짧은 구간(예: 30초~10분)에서는 독립성 가정이 깨진다는 경험적 증거를 제시한다. 이를 정량화하기 위해 임계값 tₜₕᵣₑₛ를 설정하고, 짧은 대기시간(S)과 긴 대기시간(L)의 발생 확률 p_S, p_L 및 전이 확률 p_{S|S}, p_{L|S}, p_{S|L}, p_{L|L}을 추정한다.
모델링 단계에서는 두 종류의 연속 확률밀도 ρ_S(t)와 ρ_L(t)를 각각 파워‑law 형태(γ_S, γ_L)로 정의하고, 짧은 대기시간 구간에서는 균등분포 f_U를 사용한다. 이렇게 정의된 조건부 밀도 f_{T_{k+1}}(t_{k+1}|T_k) = … (MK) 식은 현재 대기시간이 짧은지 긴지에 따라 다음 대기시간의 분포가 달라지는 1‑step 마코프 체인을 구현한다.
베이스라인으로는 (1) 전이 확률을 동일하게 두고 파워‑law 하나만 사용하는 독립 임계값 모델(IT)과 (2) 전이 없이 전체 데이터를 하나의 파워‑law(γ)로만 설명하는 독립 파워‑law 모델(IP)를 설정한다. 두 베이스라인과 제안 모델을 AIC·BIC 등 통계적 적합도 기준으로 비교했을 때, 제안 모델이 현저히 낮은 손실을 보이며 특히 트위터와 레딧에서 각각 15~20% 정도의 로그우도 향상을 기록한다.
이러한 결과는 (i) 짧은·긴 대기시간을 구분하는 임계값이 실제 인간 행동의 주기성(집중·휴식)을 포착한다는 점, (ii) 2‑state 마코프 구조가 기존 파워‑law 모델이 놓친 시간적 의존성을 효과적으로 설명한다는 점을 시사한다. 다만, 임계값을 전 플랫폼에 동일하게 적용하고, 사용자별 파라미터를 개별 추정하지 않은 점은 모델의 일반화 가능성을 제한한다. 또한, 짧은 구간을 균등분포로 가정한 단순화가 실제 복합적인 인간 행동을 충분히 반영하는지는 추가 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기