데이터 인용 실태 분석: 데이터 인용 인덱스 활용

본 연구는 Thomson Reuters가 2012년 출시한 데이터 인용 인덱스(DCI)를 이용해 전 세계 연구 분야별 데이터 인용 현황을 조사한다. DCI는 Web of Science 논문에 포함된 데이터 세트·연구에 대한 인용을 수집하지만, 데이터 저장소가 제공하는 메타데이터에 크게 의존한다. 분석 결과 대부분 분야에서 데이터 인용이 드물며, 88.1%의

데이터 인용 실태 분석: 데이터 인용 인덱스 활용

초록

본 연구는 Thomson Reuters가 2012년 출시한 데이터 인용 인덱스(DCI)를 이용해 전 세계 연구 분야별 데이터 인용 현황을 조사한다. DCI는 Web of Science 논문에 포함된 데이터 세트·연구에 대한 인용을 수집하지만, 데이터 저장소가 제공하는 메타데이터에 크게 의존한다. 분석 결과 대부분 분야에서 데이터 인용이 드물며, 88.1%의 레코드가 한 차례도 인용되지 않았다. 그러나 과학·공학·기술 분야에서는 데이터 세트가, 사회과학·인문학 분야에서는 데이터 연구가 주로 인용된다. 크리스털로그래피와 유전체학 등 일부 분야는 비교적 높은 인용률을 보인다. 연구자는 DCI가 표준화된 데이터 인용을 촉진함으로써 연구 흐름 추적에 기여할 수 있음을 강조한다.

상세 요약

데이터 인용 인덱스(DCI)는 2012년에 Thomson Reuters가 발표한 데이터 전용 인용 데이터베이스로, Web of Science에 등재된 논문이 데이터 세트나 데이터 연구를 인용한 경우 이를 자동으로 수집한다. 이 시스템은 데이터 저장소가 제공하는 메타데이터—예를 들어 DOI, 저자, 발행연도 등—에 크게 의존한다는 점에서 한계가 있다. 실제로 많은 저장소가 일관된 인용 형식을 제공하지 않으며, 일부는 인용 자체를 전혀 기록하지 않는다. 따라서 DCI에 수집된 인용 데이터는 저장소의 메타데이터 품질에 따라 편향될 가능성이 있다.

분야별 분석에서는 과학·공학·기술(Science, Engineering and Technology) 분야가 데이터 세트(dataset)를 가장 많이 인용하는 반면, 사회과학·인문학(Social Sciences, Arts and Humanities) 분야는 데이터 연구(data study)를 주로 인용한다는 차이를 발견했다. 이는 각 분야의 연구 문화와 데이터 활용 방식의 차이를 반영한다. 예를 들어, 물리·화학 분야에서는 실험 데이터 자체가 연구 결과의 핵심이므로 원시 데이터 세트에 대한 직접 인용이 일반적이다. 반면, 사회과학에서는 설문조사 결과나 통계 보고서와 같은 데이터 연구가 논문의 배경이나 비교 근거로 활용되는 경우가 많다.

전체 레코드 중 88.1%가 전혀 인용되지 않은 ‘무인용’ 상태라는 점은 데이터 인용 문화가 아직 초기 단계임을 시사한다. 그러나 일부 저장소—특히 크리스털로그래피와 유전체학 분야의 전문 저장소—는 무인용률이 현저히 낮아, 해당 분야 연구자들이 데이터 공유와 인용을 적극적으로 수행하고 있음을 보여준다. 이는 해당 분야가 데이터 표준화와 메타데이터 관리에 선제적으로 투자했기 때문일 가능성이 크다.

연구자는 DCI가 데이터 인용을 촉진하는 플랫폼으로서 역할을 확대해야 한다고 주장한다. 구체적으로는 저장소에 대한 메타데이터 표준화 요구, 인용 형식 가이드라인 제공, 그리고 인용된 데이터에 대한 추적 및 평가 메커니즘 구축이 필요하다. 이러한 조치가 이루어지면 데이터 자체가 연구 성과의 일부분으로 인정받아, 연구 과정 전반을 투명하게 추적하고 재현성을 높이는 데 기여할 수 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...