블로그스피어에서의 영향력 분석
초록
본 논문은 일본 블로그 서비스 BIGLOBE의 서버 로그를 이용해 회원들의 글쓰기와 읽기 행동을 정밀히 추출하고, 이를 기반으로 사용자 간 영향력을 고신뢰도로 탐지하는 프레임워크를 제시한다. 주제별·회원별 영향력 특성을 분석하고, 개인화 추천에의 활용 가능성을 검증한다.
상세 분석
이 연구는 기존 영향력 분석이 행동 데이터를 충분히 포착하지 못해 발생하는 불확실성을 로그 기반 실시간 행동 추적로 해결한다는 점에서 혁신적이다. 먼저, 저자들은 BIGLOBE의 웹 서버 로그에서 ‘작성(post)’와 ‘열람(view)’ 이벤트를 정확히 구분하기 위해 URL 패턴, 쿠키, 세션 정보를 종합적으로 활용하였다. 특히, 동일 세션 내에서 연속된 페이지 전환을 하나의 읽기 세션으로 묶는 ‘세션 분할 알고리즘’을 도입해 중복 카운트를 최소화하고, 읽기 지속시간을 기준으로 실제 관심도를 추정하였다. 이렇게 정제된 행동 데이터는 사용자‑사용자 간의 인과 관계를 모델링하는 데 핵심 입력으로 사용된다.
영향력 탐지는 두 단계로 구성된다. 1) 시간적 선후 관계: 한 사용자가 특정 포스트를 읽은 직후 해당 포스트 작성자가 다른 포스트를 작성했을 경우, 전자를 ‘인플루언스 트리거’로 간주한다. 2) 통계적 유의성 검정: 트리거-반응 쌍이 우연히 발생했을 가능성을 부트스트랩 방식으로 추정하고, p‑값이 사전 정의된 임계치 이하인 경우에만 실제 영향력으로 인정한다. 이 과정에서 ‘신뢰 구간 기반 필터링’과 ‘다중 비교 보정(FDR)’을 적용해 거짓 양성을 크게 억제한다.
주제별 영향력 분석에서는 LDA(Latent Dirichlet Allocation)로 30개의 토픽을 추출하고, 각 토픽에 대한 영향력 네트워크를 별도로 구축하였다. 결과적으로 기술·가전 토픽에서는 소수의 ‘핵심 블로거’가 전체 트래픽의 60% 이상을 차지한 반면, 생활·취미 토픽에서는 영향력이 보다 분산되어 있음을 확인했다. 회원별 분석에서는 활동 빈도, 팔로워 수, 블로그 연령 등 전통적인 영향력 지표와 로그 기반 영향력 점수 간의 상관관계가 약 0.45에 불과함을 보여, 기존 메트릭이 실제 영향력과 크게 다를 수 있음을 시사한다.
마지막으로, 추출된 영향력 그래프를 활용한 개인화 추천 실험에서는 ‘인플루언서 기반 협업 필터링’이 기존 콘텐츠 기반 필터링 대비 클릭률(CTR)을 12%, 체류시간을 9% 향상시켰다. 이는 영향력 정보가 사용자 선호를 예측하는 데 유의미한 보조 신호가 됨을 입증한다. 전체적으로 이 논문은 대규모 로그 데이터를 정교히 전처리하고, 통계적 검증을 결합한 영향력 탐지 프레임워크를 제시함으로써 블로그스피어뿐 아니라 다른 온라인 커뮤니티에도 적용 가능한 일반화된 방법론을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기