기업 주도 오픈소스 소프트웨어 데이터셋
초록
본 논문은 기업 직원이 기업 이메일 도메인으로 커밋한 기록을 기반으로 17,264개의 GitHub 프로젝트를 선별하여, 기업 중심 오픈소스 개발을 연구할 수 있는 데이터셋을 제공한다. 도메인 화이트리스트·블랙리스트와 세 가지 히스토릭 규칙을 적용했으며, 무작위 표본 검증을 통해 89%의 정확도를 확보했다. 데이터셋은 프로젝트 규모·활동·라이선스 등 다양한 메타데이터를 포함한다.
상세 분석
이 연구는 “기업 프로젝트”를 “주로 재정적 보상을 받는 정규 직원이 개발에 참여하는 프로젝트”로 정의하고, 자발적 오픈소스 프로젝트와의 구분을 위해 이메일 도메인 정보를 핵심 식별 요소로 삼았다. 먼저, GitHub Torent(2019‑06‑01) 데이터베이스에서 모든 커밋 기록의 이메일 도메인을 추출하고, 기업·비기업 도메인을 구분하기 위해 다단계 필터링을 수행했다. 필터링 단계는 (1) 일반 이메일 제공업체·교육기관·오픈소스 허브 등 비기업 도메인을 블랙리스트에 등록하고 제거, (2) Fortune Global 500 기업 리스트와 SEC 10‑K·20‑F 양식에서 추출한 공식 기업 도메인을 화이트리스트에 추가, (3) GitHub 조직에 연결된 도메인과 매칭하여 ‘valid enterprise’와 ‘probable company’ 두 종류의 후보 집합을 만든다.
후보 프로젝트는 (a) 동일 기업 도메인에서 다수 커밋을 수행한 상위 3인 커미터가 존재하는가, (b) 전체 커밋·스타 수가 평균(별 14, 커밋 29) 이상인지, (c) 프로젝트 복제본을 제거했는가 등을 기준으로 추가 선별되었다. 특히 “multiple committers”와 “same‑domain top committers” 두 히스토릭을 각각 10명·5명 이상의 커미터 기준으로 적용해 기업 내부 인력이 다수 참여함을 보장한다.
데이터셋 품질 검증은 무작위 표본 378개를 두 명의 독립 라이터가 기업·비기업 여부를 판단하도록 하였으며, Cohen’s κ = 0.29(신뢰도)와 78%의 일치율을 기록했다. 라이터 간 의견 차이는 다수결로 해결했으며, 최종 89%가 기업 프로젝트로 확인되었다. 부트스트랩(1,000 회)으로 95% 신뢰구간을
댓글 및 학술 토론
Loading comments...
의견 남기기