동적 텍스트 네트워크에서 토픽과 커뮤니티를 동시에 모델링

본 논문은 2012년 미국 정치 블로그 467개를 대상으로, 텍스트 토픽 변화와 블로그 간 링크 구조를 결합한 베이지안 모델을 제안한다. 동적 토픽 모델과 혼합 멤버십 스토캐스틱 블록 모델을 통합해 토픽이 커뮤니티 형성에 미치는 영향을 추정하고, 네트워크 구조가 토픽 식별을 돕도록 설계하였다. 실험 결과, 토픽 관심 블록이 블로그의 연결 확률을 크게 좌우함을 확인하였다.

저자: Teague Henry, David Banks, Christine Chai

동적 텍스트 네트워크에서 토픽과 커뮤니티를 동시에 모델링
본 논문은 동적 텍스트 네트워크를 분석하기 위해 텍스트 토픽 모델링과 네트워크 커뮤니티 모델링을 결합한 베이지안 프레임워크를 제안한다. 연구 배경으로는 최근 10년간 동적 네트워크 모델과 토픽 모델이 각각 크게 발전했지만, 두 영역을 동시에 다루는 방법은 제한적이었다는 점을 들며, 특히 시간에 따라 토픽이 급격히 변하고 동시에 블로그 간 링크 구조가 복잡하게 변하는 정치 블로그 데이터에 적용할 필요성을 강조한다. 데이터는 2012년 미국 정치 블로그 상위 467개 사이트에서 수집한 109,055개의 포스트와 그 사이의 하이퍼링크를 포함한다. 전처리 과정에서는 스테밍, TF‑IDF 변동성 기반 토큰 필터링, 0.02% 이하 등장 토큰 제거, 그리고 5,000회 이상 등장하는 바이그램·트라이그램만을 남겨 어휘 수를 7,987개로 축소하였다. 각 포스트는 발행 일자와 블로그 ID, 그리고 링크 정보를 함께 저장한다. 모델은 두 단계로 구성된다. 첫 번째 단계는 동적 토픽 생성이다. k번째 토픽에 대해 하루 t의 토큰 확률 벡터 V_{kt}는 Dirichlet(α_{kt})에서 샘플링되며, α_{kt}는 이전 ℓ일간의 V_{k·} 평균을 농축 파라미터로 사용한다. 이를 통해 토픽은 서서히 드리프트하면서도 급격한 신조어나 신토픽이 등장하면 빠르게 반영된다. 또한, 각 토픽마다 사건 발생 확률 η_k를 두어 사건이 발생하면 해당 토픽에 대한 포스팅률이 상승하도록 설계하였다. 두 번째 단계는 네트워크 모델링이다. 블로그는 하나 이상의 토픽 관심 블록(topic‑interest block)에 할당되며, 블록 멤버십은 혼합 멤버십 스토캐스틱 블록 모델(MMSBM) 형태로 확률적으로 결정된다. 블록 간 연결 확률은 로지스틱 회귀식으로 표현되며, 회귀 변수에는 (1) 블록 멤버십 공유 여부, (2) 블로그의 프리스트지(Technorati 점수), (3) 최근 연결 여부, (4) 시간‑가변 공변량 등이 포함된다. 따라서 같은 토픽에 관심이 있는 블로그끼리는 내부 연결 확률이 높아지고, 서로 다른 토픽을 공유하는 경우에도 연결 확률이 조정된다. 추론은 베이지안 MCMC 방법을 사용한다. 토픽‑단어 분포 V_{kt}와 포스트별 토픽 할당 z_d는 Gibbs 샘플링으로 업데이트되며, 시간 연속성을 반영해 이전 시점의 샘플을 사전으로 활용한다. 네트워크 파라미터(블록 멤버십, 회귀계수)는 메트로폴리스‑헤이스팅스 단계에서 로그우도 기반으로 샘플링한다. 텍스트와 네트워크 파라미터는 교차 업데이트되어 서로의 정보를 보강한다. 실험 결과는 크게 두 가지 측면에서 의미 있다. 첫째, 동적 토픽 모델은 ‘선거 뉴스’, ‘감각적 범죄’, ‘중동 외교’ 등 주요 토픽의 시간적 변동을 정확히 포착했다. 예를 들어, ‘감각적 범죄’ 토픽은 3월에 급격히 등장하고 이후 빠르게 사라지는 패턴을 보였으며, 해당 기간 동안 해당 토픽에 속한 블록의 포스팅률이 급증했다. 둘째, 네트워크 분석에서는 토픽 관심 블록이 블로그 간 연결 확률을 크게 설명함을 확인했다. ‘선거 뉴스’ 블록에 속한 블로그는 내부 연결 밀도가 0.42로 매우 높았으며, 블록 외부와의 연결은 평균 0.07 수준에 머물렀다. 반면 ‘감각적 범죄’ 블록은 내부 연결이 비교적 약했으며, 이는 해당 토픽이 일시적이고 관심이 분산된 특성 때문으로 해석된다. 또한, 블로그 프리스트지와 최근 연결 여부가 연결 확률에 유의미한 영향을 미치는 것으로 나타났다. 논문의 주요 기여는 다음과 같다. (1) 동적 토픽 모델에 네트워크 기반 공변량을 자연스럽게 통합함으로써 텍스트와 구조 정보를 동시에 활용한 새로운 베이지안 모델을 제시하였다. (2) 토픽 관심 블록이라는 개념을 도입해 텍스트와 네트워크가 상호 보완적으로 커뮤니티를 정의하도록 하였다. (3) 실제 정치 블로그 데이터에 적용해 토픽‑네트워크 상호작용을 정량적으로 입증하였다. 한계점으로는 포스트당 단일 토픽 가정, MCMC 기반 추론의 높은 계산 비용, 그리고 사건 발생 확률 η_k를 고정값으로 설정한 점 등을 들 수 있다. 향후 연구에서는 다중 토픽 할당 모델, 변분 추론을 통한 확장성 향상, 그리고 딥러닝 기반 텍스트 임베딩과의 결합을 통해 보다 복잡한 동적 텍스트 네트워크를 분석하는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기