GitHub Repositories with Links to Academic Papers: Public Access, Traceability, and Evolution

📝 Abstract
Traceability between published scientific breakthroughs and their implementation is essential, especially in the case of open-source scientific software which implements bleeding-edge science in its code. However, aligning the link between GitHub repositories and academic papers can prove difficult, and the current practice of establishing and maintaining such links remains unknown. This paper investigates the role of academic paper references contained in these repositories. We conduct a large-scale study of 20 thousand GitHub repositories that make references to academic papers. We use a mixed-methods approach to identify public access, traceability and evolutionary aspects of the links. Although referencing a paper is not typical, we find that a vast majority of referenced academic papers are public access. These repositories tend to be affiliated with academic communities. More than half of the papers do not link back to any repository. We find that academic papers from top-tier SE venues are not likely to reference a repository, but when they do, they usually link to a GitHub software repository. In a network of arXiv papers and referenced repositories, we find that the most referenced papers are (i) highly-cited in academia and (ii) are referenced by repositories written in different programming languages.
💡 Analysis
Traceability between published scientific breakthroughs and their implementation is essential, especially in the case of open-source scientific software which implements bleeding-edge science in its code. However, aligning the link between GitHub repositories and academic papers can prove difficult, and the current practice of establishing and maintaining such links remains unknown. This paper investigates the role of academic paper references contained in these repositories. We conduct a large-scale study of 20 thousand GitHub repositories that make references to academic papers. We use a mixed-methods approach to identify public access, traceability and evolutionary aspects of the links. Although referencing a paper is not typical, we find that a vast majority of referenced academic papers are public access. These repositories tend to be affiliated with academic communities. More than half of the papers do not link back to any repository. We find that academic papers from top-tier SE venues are not likely to reference a repository, but when they do, they usually link to a GitHub software repository. In a network of arXiv papers and referenced repositories, we find that the most referenced papers are (i) highly-cited in academia and (ii) are referenced by repositories written in different programming languages.
📄 Content
출판된 과학적 돌파구와 그 구현 사이의 추적 가능성은 특히 최신 과학을 코드에 구현하는 오픈소스 과학 소프트웨어의 경우 필수적이다. 그러나 GitHub 저장소와 학술 논문 사이의 연결 고리를 일치시키는 일은 어려울 수 있으며, 이러한 연결을 설정하고 유지하는 현재의 관행은 아직 충분히 밝혀지지 않았다. 본 논문은 이러한 저장소에 포함된 학술 논문 인용의 역할을 조사한다. 우리는 학술 논문을 인용하고 있는 2만 개 이상의 GitHub 저장소를 대상으로 대규모 연구를 수행하였다. 혼합 방법론(mixed‑methods) 접근 방식을 사용하여 공개 접근성(public access), 추적 가능성(traceability), 그리고 링크의 진화적 측면(evolutionary aspects)을 식별하였다. 논문을 인용하는 것이 일반적인 관행은 아니지만, 인용된 학술 논문의 대부분이 공개 접근 형태임을 발견하였다. 이러한 저장소는 대체로 학술 공동체와 연계된 경우가 많으며, 인용된 논문의 절반 이상이 어떠한 저장소와도 연결되지 않은 상태임을 확인하였다. 또한, 최고 수준의 소프트웨어 공학(SE) 학술 대회에서 발표된 논문들은 저장소를 인용할 가능성이 낮지만, 인용한다면 주로 GitHub의 소프트웨어 저장소를 가리키는 경향이 있음을 발견하였다. arXiv에 게재된 논문과 인용된 저장소들로 구성된 네트워크를 분석한 결과, 가장 많이 인용된 논문들은 (i) 학계에서 높은 인용 횟수를 기록하고 있으며, (ii) 서로 다른 프로그래밍 언어로 작성된 다양한 저장소에 의해 인용되고 있음을 확인하였다.
연구 과정에서 우리는 자동화된 텍스트 마이닝 기법과 수동 검증 절차를 결합하여 각 저장소의 README 파일, 위키 페이지, 그리고 커밋 메시지에서 학술 논문에 대한 인용 정보를 추출하였다. 추출된 인용 정보는 DOI, arXiv ID, 혹은 전통적인 서지 정보를 포함하고 있었으며, 이를 기반으로 논문과 저장소 간의 양방향 연결성을 평가하였다. 또한, 인용된 논문의 공개 접근 여부는 해당 논문의 출판사 정책과 오픈 액세스 레포지터리(예: PubMed Central, arXiv, Zenodo 등)에의 등록 여부를 통해 판단하였다. 진화적 측면을 살펴보기 위해 우리는 각 저장소의 히스토리를 시간 순으로 추적하여 인용이 언제 추가되었는지, 그리고 이후 인용이 유지되었는지 혹은 제거되었는지를 분석하였다. 이러한 분석 결과는 오픈소스 과학 소프트웨어 커뮤니티가 학술적 산출물을 어떻게 인식하고, 그 산출물을 코드 베이스와 연결시키는 데 있어 어떤 문화적·기술적 장벽이 존재하는지를 조명한다.
본 연구의 결과는 연구자, 소프트웨어 개발자, 그리고 정책 입안자에게 몇 가지 실용적인 시사점을 제공한다. 첫째, 학술 논문이 공개 접근 형태일 경우, 해당 논문을 기반으로 한 소프트웨어 구현이 보다 투명하고 재현 가능하게 된다. 둘째, 학술 논문 저자들이 자신의 연구 결과를 GitHub와 같은 코드 호스팅 플랫폼에 명시적으로 연결하도록 장려함으로써, 연구 결과의 실용적 적용을 촉진하고, 인용 횟수와 같은 학술적 영향력을 확대할 수 있다. 셋째, 학술 출판사와 오픈소스 커뮤니티 간의 협업 메커니즘을 구축하여, 인용 메타데이터를 자동으로 동기화하고, 지속적인 추적 가능성을 보장하는 인프라를 마련할 필요가 있다.
결론적으로, 학술 논문과 오픈소스 저장소 사이의 연결 고리는 현재 아직 충분히 체계화되지 않았지만, 우리 분석을 통해 그 중요성과 현재 실태를 명확히 파악할 수 있었다. 향후 연구에서는 보다 정교한 자동화 도구를 개발하여 인용 링크의 실시간 업데이트를 지원하고, 다양한 학문 분야와 프로그래밍 언어에 걸친 광범위한 데이터셋을 활용함으로써, 과학적 지식의 흐름을 더욱 정밀하게 모델링할 수 있을 것으로 기대한다.