OSS 프로젝트 성장: 수와 규모의 동시 변화 분석
초록
본 연구는 2003‑2012년 사이 SourceForge의 월별 스냅샷을 이용해 36만 개 프로젝트와 34만 명 개발자의 동태를 분석한다. 프로젝트와 개발자 수는 지수적으로 증가했으며, 2009년 이후 단일 개발자 프로젝트가 급증한다. 신규 개발자가 새 프로젝트를 창설하거나 기존 프로젝트에 참여하는 확률 모델을 세우고, 협업 프로젝트의 규모 분포가 Yule‑Simon 분포를 따름을 통계적으로 검증한다. 그러나 2010년 이후 기존 개발자들의 신규 프로젝트 창설이 늘어나면서 모델 가정이 깨지는 시기가 발견된다.
상세 분석
이 논문은 산업 조직 이론의 대표적 모델인 Simon‑Gibrat 프레임을 OSS 커뮤니티에 적용하려는 시도를 보인다. 데이터는 SourceForge에서 89개의 월별 스냅샷을 수집했으며, 결측치와 자동 삭제(Autopurge) 등 데이터 정제 과정을 상세히 기술한다. 전체 프로젝트(Np), 개발자(Nd), 그리고 개발자‑프로젝트 연결 수(K)는 모두 로그‑선형 플롯에서 직선 형태를 보여, 성장률 ω가 일정함을 확인한다. 특히 Np는 2010년을 전후로 성장률이 1.33%에서 1.81%로 급증하는데, 이는 단일 개발자 프로젝트가 급증한 것과 일치한다. 언어별 분석에서는 C, Java, C# 등 7대 언어가 전체 프로젝트의 80% 이상을 차지하고, C#·PHP·Python 등에서 단일 개발자 비중이 70% 이상에 달한다.
모델링 부분에서는 신규 개발자가 확률 p로 새 프로젝트를 만들고, 1‑p로 기존 프로젝트에 랜덤하게 연결된다고 가정한다. 이 가정 하에 협업 프로젝트의 규모 분포는 Yule‑Simon 형태, 즉 꼬리가 파워‑법칙인 f(x)∝x⁻γ를 갖는다. 저자는 EM 알고리즘을 이용해 γ를 추정하고, Kolmogorov‑Smirnov 검정 등으로 적합성을 검증한다. 그러나 2009‑2010년 이후 p가 시간에 따라 증가함을 관측했으며, 이는 기존 개발자들이 다수의 프로젝트를 동시에 운영하기 시작했기 때문이다. 따라서 모델의 핵심 가정인 “새로운 개발자는 항상 동일한 확률로 새 프로젝트를 만든다”가 위배되어 Yule‑Simon 분포와의 일치도가 떨어진다.
또한, 이중 네트워크(개발자‑프로젝트 이분 그래프)와 그 투영을 통해 프로젝트 간, 개발자 간 연결 구조를 시각화했으며, 프로젝트 규모와 성장률 사이에 양의 상관관계가 있음을 확인한다. 전체적으로, 데이터 기반 실증과 이론 모델의 비교를 통해 OSS 커뮤니티의 성장 메커니즘을 정량화하고, 기존 경제 모델의 적용 가능성과 한계를 명확히 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기