전체 텍스트 다운로드와 인용 분포의 차이와 의미
본 연구는 Elsevier ScienceDirect의 전 분야 논문에 대한 전체 텍스트 다운로드 데이터를 분석하여, 분야·학술지·문서 유형별 다운로드 빈도와 인용 횟수의 차이, 왜도, 상관관계를 조사하였다. 다운로드는 인용보다 약 100배 많고 분포가 덜 왜곡되며, 두 지표는 전반적으로 양의 상관관계를 보이나 상위 논문 집합은 크게 겹치지 않는다. 모델링
초록
본 연구는 Elsevier ScienceDirect의 전 분야 논문에 대한 전체 텍스트 다운로드 데이터를 분석하여, 분야·학술지·문서 유형별 다운로드 빈도와 인용 횟수의 차이, 왜도, 상관관계를 조사하였다. 다운로드는 인용보다 약 100배 많고 분포가 덜 왜곡되며, 두 지표는 전반적으로 양의 상관관계를 보이나 상위 논문 집합은 크게 겹치지 않는다. 모델링 결과 두 지수함수의 합으로는 월별 다운로드 변동을 충분히 설명하지 못했으며, 분야 특성이 다운로드·인용 차이를 주도한다는 결론에 도달했다.
상세 요약
이 논문은 2010년부터 2015년까지 Elsevier ScienceDirect에 수록된 2,000여 종 학술지, 1백만 건 이상의 논문을 대상으로 다운로드 로그와 Scopus 인용 데이터를 매칭하였다. 데이터 전처리 단계에서는 자동화된 봇 다운로드와 대량 다운로드(예: 텍스트 마이닝 목적)를 식별해 제외하고, 문서 유형(연구 논문, 리뷰, 편집물 등)별로 구분하였다. 통계적으로는 각 논문에 대한 월별 다운로드 횟수와 누적 인용 횟수를 로그 변환 후 정규성 검정, 왜도·첨도 분석, 그리고 피어슨·스피어만 상관계수를 산출하였다.
주요 결과는 다음과 같다. 첫째, 전체 다운로드 평균은 인용 평균보다 약 2 log 단위(≈100배) 높았다. 둘째, 다운로드 분포는 인용 분포에 비해 꼬리가 짧고 왜도가 낮아, ‘핵심 논문’이 차지하는 비중이 상대적으로 작았다. 셋째, 분야별 차이가 가장 크게 나타났으며, 물리·공학 분야는 다운로드·인용 모두 높은 편이지만, 인문·사회 과학 분야는 다운로드는 활발하나 인용은 낮은 경향을 보였다. 넷째, 동일 학술지 내에서 논문 수준의 상관계수(r≈0.45)는 해당 학술지가 속한 분야 전체의 상관계수와 유사했으며, 이는 학술지 간 차이가 주로 분야 특성에 의해 설명된다는 것을 시사한다.
모델링 측면에서는 월별 다운로드 시계열을 두 개의 지수 감쇠 함수(단기·장기) 합으로 피팅했지만, 실제 데이터는 특히 신간 논문 발표 직후 급증과 계절적 변동을 충분히 포착하지 못했다. 이는 다운로드가 단순한 ‘노출-소멸’ 메커니즘보다 복합적인 사용자 행동(예: 강의 자료 다운로드, 정책 보고서 활용 등)에 의해 좌우된다는 점을 반영한다.
마지막으로, 다운로드 상위 10% 논문과 인용 상위 10% 논문의 겹침 비율은 평균 12%에 불과했다. 이는 독자가 논문을 읽는 목적이 인용을 통한 학술적 기여와는 별개로, 최신 동향 파악, 교육·연구 지원, 실무 적용 등 다양한 목적을 포함한다는 점을 뒷받침한다. 이러한 차이는 ‘사용량 누수(usage leak)’와 ‘인용 누수(citation leak)’라는 개념으로 설명되며, 다운로드와 인용이 서로 다른 지식 흐름을 반영한다는 중요한 시사점을 제공한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...