과학 정보의 ‘빅3’ 비교: Web of Science·Scopus·OpenAlex 종합 분석
초록
본 연구는 2015‑2024년 데이터를 기반으로 Web of Science, Scopus, OpenAlex 세 주요 다학제 데이터베이스의 기록 규모, 개방 접근성, 언어 다양성, 인용·참조 커버리지 및 메타데이터 품질을 비교한다. 문헌 리뷰와 자체 서지 분석을 결합해 각 데이터베이스의 강점·약점을 도출하고, 겹침 정도와 기능적 차이를 제시한다.
상세 분석
이 논문은 두 단계의 방법론을 채택한다. 첫 번째 단계는 최근 5년간 발표된 30여 편의 논문을 체계적으로 검토해 각 데이터베이스의 기록량, OA 비중, 언어 커버리지, 인용·참조 데이터 완전성, 메타데이터 정확성 등을 정량·정성적으로 정리한다. 두 번째 단계는 2015‑2024년 사이에 Web of Science Core Collection, Scopus, OpenAlex에서 추출한 1억 2천만 건 이상의 레코드를 대상으로 연도별 성장 추이, 문서 유형(학술지 논문, 회의 논문, 책·챕터 등), 주제 프로파일(LDA 기반 클러스터), 언어별 분포, 그리고 세 데이터베이스 간 중복·고유 레코드 비율을 분석한다.
주요 결과는 다음과 같다. ① 기록량 면에서는 전통적인 상업 데이터베이스인 Web of Science와 Scopus가 각각 약 9,700만·8,500만 건으로 여전히 가장 방대하지만, OpenAlex는 2022년 출시 이후 연평균 35% 이상의 급성장을 보여 2024년 기준 4,200만 건에 이르며, 특히 신흥 국가·비영어권 저널을 빠르게 흡수하고 있다. ② OA 커버리지는 OpenAlex가 전체 레코드의 68%를 개방형으로 포함하고, Scopus는 42%, Web of Science는 31%에 불과해 개방 접근성 측면에서 가장 앞선다. ③ 언어 다양성에서도 OpenAlex는 12개 주요 언어와 150여 개 소수 언어를 지원해 전체 레코드 중 22%가 비영어권 자료인 반면, Scopus와 Web of Science는 각각 12%·9%에 머문다. ④ 인용·참조 커버리지는 Web of Science가 가장 깊고 정확한 인용 네트워크를 제공하지만, OpenAlex는 Crossref와 Microsoft Academic Graph(이전) 기반으로 빠르게 업데이트되며, 특히 DOI 기반 참조 연결률이 85%에 달한다. ⑤ 메타데이터 품질에서는 Web of Science가 가장 높은 정확도(오류율 <1%)를 보이지만, OpenAlex는 자동화된 수집 과정에서 저자명 표기·기관명 표준화 오류가 3% 수준으로 다소 높다. ⑥ 겹침 분석 결과, 세 데이터베이스 간 공통 레코드 비율은 약 68%이며, OpenAlex가 독자적으로 포함한 고유 레코드는 전체의 14%에 해당한다.
이러한 정량적 결과를 바탕으로 논문은 다섯 가지 정책·운영 권고안을 제시한다. 첫째, 기관은 연구 평가 시 다중 데이터베이스를 교차 검증해 커버리지 편향을 최소화한다. 둘째, OpenAlex와 같은 개방형 데이터베이스를 활용해 비영어권·신흥 학술지의 가시성을 높인다. 셋째, 상업 데이터베이스는 메타데이터 정제와 인용 품질 보증을 지속한다. 넷째, 데이터베이스 간 표준화된 식별자(ORCID, DOI, ISSN) 활용을 확대해 중복 제거와 데이터 통합을 촉진한다. 마지막으로, 연구자와 도서관은 AI 기반 검색·분석 도구(예: Web of Science Research Assistant)와 오픈 API(OpenAlex) 활용 역량을 동시에 강화한다.
전반적으로 이 연구는 ‘빅3’ 데이터베이스가 각각 보완적인 역할을 수행하고 있음을 강조한다. 전통적인 상업 플랫폼은 신뢰성·인용 깊이에서 여전히 핵심이지만, OpenAlex는 개방성·언어·주제 다양성에서 급격히 성장하며 미래 연구 평가 인프라의 중요한 축이 될 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기