오픈소스 개발에서 성별 행동이 불리함을 초래한다
초록
이 논문은 GitHub 사용자 전체 경력을 분석해 행동 양식이 성별 불평등에 미치는 영향을 측정한다. 무작위 숲 모델로 여성일 확률을 행동 변수(활동 수준, 언어 전문성, 파트너 선택)로 예측하고, 성공·생존 격차를 ‘범주적 성별’과 ‘성별 행동 패턴’으로 분해한다. 결과는 여성의 성공 격차 84.5%, 생존 격차 34.8%가 여성 행동 패턴 때문이며, 남성도 여성 행동 패턴에 따라 불리함을 겪는다. 성별 비공개 사용자 역시 생존 확률이 크게 낮다. 시간에 따른 격차 감소는 관찰되지 않았다.
상세 분석
본 연구는 오픈소스 소프트웨어 개발에서 여성의 참여와 유지가 현저히 낮은 현상을 ‘범주적 차별’보다 ‘행동 양식’에 초점을 맞춰 해석한다. 데이터는 GitHub에서 활동한 1백만 명 이상의 사용자를 대상으로, 각 사용자의 커밋 수, 레포지토리 생성 빈도, 사용 언어 분포, 협업 네트워크(공동 작업자) 등을 정량화하였다. 이러한 변수들을 입력으로 하여 랜덤 포레스트 분류기를 학습시켰으며, 모델은 특정 행동 조합이 여성일 확률을 0~1 사이의 연속형 점수(‘여성 행동 점수’)로 산출한다.
핵심은 이 점수를 이용해 ‘행동 기반 성별 효과’를 정량화한 것이다. 연구진은 먼저 실제 성별(프로필 및 이름 기반 추정)과 행동 점수 간의 상관관계를 확인하고, 이후 성공 지표(스타 수, 포크 수, 프로젝트 리더십)와 생존 지표(활동 지속 연도)를 각각 회귀·생존 분석에 투입하였다. 모델은 두 종류의 독립 변수—‘범주적 성별’(남·여)과 ‘여성 행동 점수’를 동시에 포함시켜, 각 변수의 기여도를 분해한다.
분해 결과, 여성의 평균 성공 지표가 남성보다 낮은 원인의 84.5%가 여성 행동 점수에 기인한다는 점이 눈에 띈다. 이는 여성들이 선택하는 언어(예: 스크립트 언어 비중이 높음), 협업 파트너의 네트워크 중심성, 그리고 활동 빈도와 같은 행동 양식이 남성에 비해 프로젝트 가시성과 영향력을 제한한다는 의미다. 생존 측면에서는 행동 점수가 34.8%의 차이를 설명한다. 즉, 여성 행동 양식이 남성보다 빠르게 활동을 중단하게 만든다.
흥미롭게도 남성 집단 내에서도 여성 행동 점수가 높은 상위 사분위수에 속하는 경우, 성공과 생존 모두에서 통계적으로 유의미한 불리함을 보였다. 이는 ‘여성 행동 양식’ 자체가 구조적 불이익을 내포하고 있음을 시사한다. 또한, 성별을 공개하지 않은 사용자들은 평균보다 낮은 생존 확률을 보였으며, 이는 성별 숨김이 오히려 위험을 가중시킬 수 있음을 암시한다.
시간적 추세 분석에서는 2010년부터 2020년까지 데이터가 포함됐음에도 불구하고, 행동 기반 격차는 감소하지 않았으며, 오히려 일부 지표에서 확대되는 경향을 보였다. 이는 오픈소스 커뮤니티의 문화적·기술적 변화가 기존의 행동 패턴을 교정하지 못하고 있음을 의미한다.
마지막으로, 연구진은 성별 추정 오류(이름 기반 성별 인식의 5% 오차)와 특정 언어·프레임워크에 대한 가중치를 조정하는 등 다양한 민감도 분석을 수행했으며, 주요 결과는 일관되게 유지되었다. 이는 모델이 특정 변수에 과도하게 의존하지 않고, 행동 양식 자체가 구조적 불평등을 설명한다는 강력한 증거다.
댓글 및 학술 토론
Loading comments...
의견 남기기