Google Scholar 규모 추정 방법

초록

본 논문은 2014년 5월 기준 Google Scholar에 색인된 문서 수를 추정하기 위해 세 가지 실증적 방법을 제시한다. 외부 연구 기반 추정, 빈 검색어를 이용한 내부 추정, 그리고 비현실적(Absurd) 검색어를 활용한 내부 추정을 각각 적용하고, 결과적으로 약 1억 6천만~1억 6천5백만 건의 문서가 존재한다는 결론에 도달한다. 다만 검색 기능의 일관성 부족으로 정확도와 신뢰성에 한계가 있다.

상세 요약

논문은 Google Scholar(GS)의 전체 규모를 정량화하려는 시도를 체계화한다는 점에서 의미가 크다. 첫 번째 방법은 기존 문헌에서 보고된 GS의 커버리지 비율을 메타분석하여 전체 학술 웹의 추정 규모와 교차시킴으로써 외부 추정값을 도출한다. 이때 사용된 기준 문헌은 주로 특정 분야(예: 의학, 컴퓨터 과학)에서의 샘플링 연구이며, 각 연구가 제시한 ‘GS가 전체 논문 중 차지하는 비율’을 평균화하여 전체 학술 문헌 수에 곱한다. 두 번째 방법은 GS 검색창에 아무 키워드도 입력하지 않은 상태(빈 쿼리)로 검색했을 때 반환되는 히트 수를 직접 기록한다. 이 값은 시스템이 내부적으로 반환하는 총 문서 수와 일치한다고 가정한다. 세 번째 방법은 의미가 없는 문자열(예: “asdfghjkl”)을 입력해도 시스템이 반환하는 히트 수를 이용한다. 비현실적 쿼리에도 불구하고 GS는 일정량의 ‘전체 문서’ 카운트를 제공하므로, 이를 또 다른 내부 추정치로 활용한다. 세 방법 모두 결과값이 서로 다르지만 1.6×10⁸ 수준에 수렴한다는 점이 주목된다. 그러나 논문은 GS가 검색 결과를 페이지당 10건씩 제한하고, 중복 제거 정책이 불명확하며, ‘특허·법률 문서’와 ‘학술 논문’ 구분이 모호한 점을 지적한다. 이러한 시스템적 불일치는 히트 카운트가 실제 색인된 문서 수와 정확히 일치하지 않을 가능성을 높인다. 또한, GS는 검색 시 동적 필터링(예: 최신 문서 우선)과 사용자 세션에 따라 결과가 변동될 수 있어, 동일 쿼리라도 시간에 따라 카운트가 달라지는 현상이 관찰된다. 따라서 제시된 추정치는 상한선과 하한선 사이의 구간으로 해석해야 하며, 절대적인 정확도보다는 규모 감을 제공한다는 점에서 유용하다. 논문은 이러한 한계를 보완하기 위해 다중 시점에서 반복 측정하고, 다른 학술 검색 엔진(Microsoft Academic Search 등)과의 교차 검증을 제안한다.

초록

상세 요약

📜 논문 원문 (영문)