온라인 사용자 행동 궤적 모델링: HMM 기반 군집 분석
본 논문은 사용자의 온라인 행동 시퀀스를 숨은 마코프 모델(HMM)로 표현하고, 학습된 HMM 간의 모델 기반 거리를 정의해 스펙트럴 클러스터링을 수행한다. 페이스북과 유튜브 데이터에 적용해 과학·음모론(콘스피러시) 지향 사용자들을 구분하는 군집을 성공적으로 도출하였다.
저자: Aless, ro Bessi
본 논문은 온라인 소셜 미디어 사용자의 행동 궤적을 정량적으로 모델링하고, 이를 기반으로 사용자 군집을 도출하는 새로운 방법론을 제시한다. 연구는 크게 네 단계로 구성된다. 첫 번째 단계에서는 사용자가 온라인에서 수행하는 행동(댓글, 좋아요 등)을 시간 순서대로 기록한 시퀀스를 확보한다. 저자는 페이스북과 유튜브에서 각각 1,200명씩, 총 2,400명의 사용자를 대상으로 최소 100개의 댓글을 수집했으며, 이들 사용자를 과학 콘텐츠에 편향된 사용자(PS), 음모론 콘텐츠에 편향된 사용자(PC), 그리고 편향이 명확하지 않은 사용자(NP)로 구분하였다.
두 번째 단계에서는 각 사용자의 행동 시퀀스를 숨은 마코프 모델(HMM)로 변환한다. 관측 가능한 행동은 두 가지 가시 상태(과학 s, 음모론 c)로 이산화하고, 사용자의 내재된 성향을 세 가지 숨은 상태(과학 편향 S, 불확실 U, 음모론 편향 C)로 설정한다. 초기 전이 행렬 A와 방출 행렬 B는 각각 1/3, 1/2의 균등값으로 초기화했으며, Baum‑Welch 알고리즘을 이용해 각 사용자의 시퀀스에 최적화된 파라미터를 추정한다. 이렇게 하면 서로 다른 길이의 시퀀스라도 동일한 차원의 모델 파라미터로 압축될 수 있다.
세 번째 단계에서는 학습된 HMM들 간의 거리를 정의한다. 특정 모델 λ_i에 대해 다른 사용자의 시퀀스 Y_j의 로그우도 log Pr(Y_j|λ_i)를 계산해 비대칭 거리 행렬 L을 만든다. 이 비대칭성을 |`ii+`jj‑`ij‑`ji| 형태로 대칭화하여 D 행렬을 얻고, RBF 커널 exp(‑d_ij²)으로 변환해 유사도 행렬 S를 만든다. 이 거리·유사도는 모델 자체가 행동 패턴을 요약하므로, 전통적인 시계열 거리 측정보다 더 의미 있는 비교를 제공한다.
마지막 단계에서는 스펙트럴 클러스터링을 적용한다. 유사도 행렬 S를 그래프의 인접 행렬로 해석하고, 정규화 라플라시안 M=SK⁻¹을 구성한다. 대칭화된 Z=K⁻¹/² M K⁻¹/²의 상위 고유벡터들을 추출해 저차원 스펙트럴 공간에 매핑한 뒤, K‑means를 이용해 군집을 구분한다. 결과는 두 개의 뚜렷한 직선형 군집(PS와 PC)과, 그 사이에 퍼진 구름 형태의 군집(NP)으로 나타났다. 이는 사용자가 동일한 서사에 지속적으로 댓글을 남길수록 모델이 해당 편향을 강하게 포착한다는 것을 의미한다.
논문은 또한 방법론의 장점과 한계를 논의한다. 장점으로는 (1) 서로 다른 길이의 행동 시퀀스를 동일한 모델 형태로 압축해 비교 가능하게 함, (2) 숨은 상태를 통해 관측되지 않은 사용자 성향을 추정, (3) 모델 기반 거리와 스펙트럴 클러스터링을 결합해 플랫폼 간 결과를 일관되게 도출할 수 있다는 점을 들었다. 한계점은 HMM의 숨은 상태 수와 초기 전이·방출 행렬을 사전 지식에 의존해 설정한다는 점, 로그우도 기반 거리의 비대칭성을 대칭화하면서 정보 손실이 발생할 가능성, 그리고 행동 지표가 댓글에 국한돼 있어 다른 행동(좋아요, 공유, 시청 시간 등)을 포함하지 못한다는 점이다.
향후 연구 방향으로는 다변량 HMM을 통한 다중 행동 유형 통합, 베이지안 비모수 HMM을 이용한 자동 상태 수 추정, 온라인 스펙트럴 클러스터링을 통한 동적 군집 변화 추적, 다른 플랫폼(트위터, 인스타그램)과의 교차‑플랫폼 비교, 그리고 행동 궤적과 설문·심리 측정치 간 상관 분석을 통한 인과 관계 규명 등을 제시한다. 이러한 확장은 온라인 여론 형성 메커니즘을 보다 정밀히 이해하고, 허위·편향 정보 확산 방지 정책 수립에 실질적인 데이터를 제공할 수 있을 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기