GitHub Copilot이 개발자 생산성에 미친 실제 효과: 장기 혼합연구
초록
본 연구는 노르웨이 공공 부문 IT 조직인 NAV IT에서 2년간 26,317개의 커밋 데이터를 분석하고, 설문·인터뷰와 결합해 GitHub Copilot 사용 전후의 개발자 활동과 주관적 생산성 변화를 조사한다. Copilot 사용자는 비사용자보다 기존에 더 활발했으며, 도입 후 커밋 수·라인 변화에서는 통계적으로 유의한 차이를 보이지 않았다. 그러나 설문에서는 사용자가 느끼는 생산성 향상이 존재함을 확인해, 객관적 활동 지표와 주관적 경험 사이의 괴리를 강조한다.
상세 분석
이 연구는 정량적 GitHub 메트릭과 정성적 설문·인터뷰를 동시에 활용한 혼합연구 설계가 가장 큰 강점이다. 703개의 레포지토리에서 39명의 개발자를 추출해 25명의 Copilot 사용자와 14명의 비사용자를 비교했으며, 데이터 정제 과정에서 중복 커밋 제거, 이상치(극단적인 라인 삽입·삭제) 배제, 주당 평균 커밋 1회 미만 사용자 제외 등 엄격한 전처리를 수행했다. 이렇게 정제된 26,317개의 커밋을 주 단위로 집계해 4,095개의 관측치를 만든 점은 시간적 변동성을 포착하는 데 유리했다.
분석 결과, Copilot 사용자는 도입 이전에도 비사용자보다 평균 커밋 빈도와 라인 변화량이 높았다. 이는 Copilot 채택이 ‘이미 생산성이 높은 개발자’에게 편향될 가능성을 시사한다. 도입 후에는 커밋 빈도와 라인 변화가 소폭 상승했지만, 통계적 유의성을 확보하지 못했다. 즉, Copilot이 실제 코드 생산량을 눈에 띄게 증가시켰다고 보기 어렵다.
반면 설문에서는 사용자가 “생산성 향상”을 평균 +0.6 수준으로 평가했으며, 인터뷰에서도 “코드 작성 속도·디버깅 시간 절감” 등 주관적 이득을 언급했다. 이러한 인식 차이는 두 가지 요인으로 해석될 수 있다. 첫째, 커밋 수·라인 수는 코드 품질·복잡도·테스트 커버리지 등 생산성의 중요한 측면을 충분히 반영하지 못한다. Copilot이 자동 완성·리팩터링·문서화 등을 지원함으로써 개발자가 더 적은 라인으로 동일한 기능을 구현하거나, 코드 리뷰·버그 수정에 드는 시간을 절감했을 가능성이 있다. 둘째, 심리적 요인—예를 들어, AI 도구 사용으로 인한 작업 흐름의 원활함·스트레스 감소—가 주관적 생산성 평가에 크게 작용했을 것으로 보인다.
연구는 또한 조직 문화와 도입 전략이 결과에 미치는 영향을 간접적으로 보여준다. 초기 100명의 자발적 라이선스 수령자 중 일부는 이미 자동화된 아키텍처·보일러플레이트 최소화 전략을 사용하고 있어 Copilot의 필요성을 느끼지 못했으며, 이는 도구 채택률과 효과에 영향을 미친다. 또한, Copilot 사용 여부와 역할(프론트엔드·백엔드·데브옵스 등) 간의 상관관계 분석은 부족했지만, 향후 연구에서 역할별 효과 차이를 탐색할 여지를 남긴다.
한계점으로는 샘플 규모(39명)와 조직 특수성(공공 부문 대규모 IT 조직) 때문에 결과를 일반화하기 어려운 점, 커밋 기반 메트릭 외에 PR 병합 시간·빌드 성공률·테스트 커버리지 등 다각적 생산성 지표를 포함하지 않은 점을 들 수 있다. 또한, Copilot 사용 기간이 짧은 개발자와 장기 사용자 간 차이를 구분하지 않아 시간에 따른 효과 누적을 포착하지 못했다.
종합적으로, 이 논문은 “Copilot이 생산성을 높인다”는 주장에 대해 객관적 코드 기여량 측면에서는 뚜렷한 증거를 제시하지 못하지만, 개발자들의 주관적 경험과 조직 내 도구 채택 문화가 생산성 인식에 중요한 역할을 함을 강조한다. 향후 연구는 보다 정교한 다중 메트릭 접근과 장기 추적, 그리고 다양한 조직·도메인에서의 비교 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기