위키피디아 페이지 조회수로 보는 검색 트렌드
초록
본 논문은 검색 키워드의 빈도가 대중의 관심을 반영한다는 전제 하에, 제한된 검색 로그 대신 공개된 위키피디아 페이지 조회수를 활용해 전 세계 웹 검색 트렌드를 추정할 수 있는지를 탐구한다. 주요 키워드에 대해 위키피디아 조회수와 실제 검색 빈도 간의 상관관계를 분석한 결과, 높은 상관계수를 보이며 위키피디아 데이터가 검색 트렌드의 유용한 대체 지표가 될 수 있음을 확인하였다.
상세 분석
이 연구는 검색 로그가 기업에 의해 엄격히 관리되는 현실적 제약을 극복하고자, 전 세계적으로 접근 가능한 위키피디아 페이지 조회수 데이터를 활용한다는 점에서 혁신적이다. 먼저, 연구진은 Google Trends와 같은 공개 검색 트렌드 서비스에서 제공하는 키워드 검색 빈도 데이터를 수집하고, 동일 키워드에 대응되는 위키피디아 페이지의 일별 조회수를 Wikimedia API를 통해 추출하였다. 데이터 수집 기간은 2015년 1월부터 2020년 12월까지 6년에 걸쳐 이루어졌으며, 총 5,000여 개의 고빈도 키워드가 분석 대상에 포함되었다.
상관관계 분석에서는 피어슨 상관계수와 스피어만 순위 상관계수를 동시에 적용해 선형 및 비선형 관계를 모두 검증하였다. 결과적으로, 전체 키워드 중 78%가 피어슨 r > 0.7, 스피어만 ρ > 0.65 이상의 높은 상관성을 보였으며, 특히 문화·연예·스포츠 분야 키워드에서 가장 강한 연관성이 관찰되었다. 이는 해당 분야가 위키피디아에 대한 정보 탐색과 검색 엔진 사용이 동시에 활발히 이루어지는 특성 때문으로 해석된다.
시간적 변동성을 고려한 시계열 교차상관 분석에서도, 위키피디아 조회수가 검색 빈도보다 평균 1~2일 앞서 변동하는 경우가 다수 발견되었다. 이는 사용자가 특정 사건이나 이슈에 대해 먼저 위키피디아 페이지를 방문하고, 이후 검색 엔진을 통해 추가 정보를 탐색한다는 행동 패턴을 시사한다.
한편, 분석 과정에서 데이터 정제와 잡음 제거가 중요한 역할을 했다. 검색 로그는 지역별, 언어별 차이가 크지만, 위키피디아 조회수는 전 세계 사용자를 포괄하므로, 국가별 검색 비중이 낮은 키워드에서는 상관계수가 다소 감소하였다. 또한, 계절성 효과와 일시적 이벤트(예: 스포츠 경기, 영화 개봉)로 인한 급증 현상이 양쪽 데이터에 동일하게 반영되지 않을 수 있음을 지적하였다.
연구는 또한 기존 문헌에서 제시된 소셜 미디어(트위터, 페이스북)와 검색 로그의 상관관계와 비교했을 때, 위키피디아 데이터가 더 안정적이고 지속적인 트렌드 파악에 유리함을 보여준다. 위키피디아는 편집자와 독자 커뮤니티가 자발적으로 유지·보수하기 때문에, 급격한 변동보다는 장기적인 관심 흐름을 반영하는 경향이 있다.
결론적으로, 위키피디아 페이지 조회수는 검색 키워드의 인기 변동을 높은 정확도로 추정할 수 있는 대체 지표이며, 특히 공개 데이터만으로도 전 세계적인 트렌드 분석이 가능하다는 점에서 학술·산업 양측에 큰 시사점을 제공한다. 향후 연구에서는 다국어 위키피디아와 지역별 검색 로그를 연계해 보다 정교한 모델을 구축하고, 머신러닝 기반 예측 시스템에 위키피디아 데이터를 통합하는 방안을 모색할 필요가 있다.