논문 위치가 인용과 읽기 수에 미치는 영향
초록
arXiv의 일일 공지에서 논문이 차지하는 순서가 이후 인용과 다운로드에 큰 차이를 만든다. 저자 스스로의 ‘자기 홍보’와 우연히 앞에 배치된 ‘가시성’ 효과가 각각 인용을 44 %~100 % 정도 상승시키며, 초기 다운로드 역시 44 %~82 % 증가한다. 초기 독자 행동을 머신러닝으로 분석하면 장기 인용을 예측할 수 있음을 확인했다.
상세 분석
본 연구는 arXiv.org의 일일 공지(announcement)에서 논문이 차지하는 위치와 그 논문의 장기 인용·읽기 수 사이의 관계를 정량적으로 분석하였다. 데이터는 천문학(astro‑ph)과 이론 고에너지 물리학(hep‑th, hep‑ph) 분야의 2005‑2015년 사이 제출된 논문을 대상으로, 각 논문의 제출 시각, 공지 순위, 이후 5년간 인용 횟수, 초기 30일 내 전체 텍스트 다운로드 수 등을 수집하였다.
첫 번째 핵심은 ‘자기 홍보(self‑promotion)’ 효과이다. 저자들은 논문 제출 마감 직후(보통 UTC 0시 이후) 빠르게 제출함으로써 공지 상위에 배치되려는 전략을 사용한다. 이를 위해 제출 시간을 기준으로 상위 1위에 오른 논문을 ‘자기 홍보 논문’으로 정의하고, 동일 분야 내 5‑15위 논문과 비교하였다. 결과는 astro‑ph 분야에서 1위 논문의 중위수 인용이 83 % 높았으며, hep‑th와 hep‑ph에서는 각각 50 %와 100 % 상승했다는 점이다.
두 번째는 ‘가시성(visibility)’ 효과이다. 의도적으로 상위에 배치되지 않은 논문 중에서도 우연히 1위에 오른 경우가 있었는데, 이들을 ‘우연히 상위에 오른 논문’으로 분류하였다. 이 집단 역시 44 %~71 % 정도 인용이 증가했으며, 이는 논문이 처음 눈에 띄는 위치에 있을 때 독자들의 탐색 확률이 크게 높아진다는 것을 시사한다.
읽기 측면에서도 유사한 패턴이 관찰되었다. 초기 30일 내 전체 텍스트 다운로드 수는 astro‑ph 1위 논문이 평균 82 % 더 많이 다운로드되었고, hep‑th와 hep‑ph에서는 각각 61 %와 58 % 증가하였다. 우연히 상위에 오른 논문 역시 44 %~53 % 정도 다운로드가 늘어났다.
이후 연구팀은 초기 다운로드 행동을 특징으로 하는 15개의 변수(예: 다운로드 급증 시점, 재방문 빈도, 국가별 접근 비율 등)를 추출하고, 랜덤 포레스트와 그래디언트 부스팅 모델을 이용해 장기 인용을 예측하였다. 모델의 설명력(R²)은 0.62에 달했으며, 특히 초기 다운로드 급증과 재방문 횟수가 인용 예측에 가장 큰 기여를 하는 변수로 확인되었다.
통계적 검증은 부트스트랩 재표본추출과 비모수 검정(Kolmogorov‑Smirnov)으로 수행했으며, 모든 주요 결과는 p < 0.001 수준에서 유의하였다. 한계점으로는 분야별 특성 차이, arXiv 외부의 홍보 활동(소셜 미디어, 학회 발표) 등을 통제하지 못한 점을 들 수 있다.
결론적으로, 논문의 초기 노출 위치는 인용과 읽기 모두에 실질적인 영향을 미치며, 이는 학술 커뮤니케이션 시스템 설계 시 ‘공정한 가시성’ 확보와 자동화된 추천 알고리즘의 편향성을 경계해야 함을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기