AI 코딩 에이전트의 안드로이드·iOS 오픈소스 기여 현황 분석

AI 코딩 에이전트의 안드로이드·iOS 오픈소스 기여 현황 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 2025년 5월~11월 기간에 GitHub 오픈소스 모바일 앱 저장소 193곳(안드로이드 98, iOS 95)에서 추출한 2,901개의 AI‑작성 풀 리퀘스트(PR)를 대상으로, 플랫폼별, 에이전트별, 작업 카테고리별 PR 수용률과 해결 시간 차이를 실증적으로 조사한다. 안드로이드가 iOS보다 PR 수용률이 높고(71% vs 63%) 에이전트 선택에 따른 차이가 크게 나타나는 반면, iOS는 전반적으로 낮고 균일한 수용률을 보인다. 작업 카테고리에서는 ‘localization’, ‘ui’, ‘fix’ 등 일상적 변경이 높은 수용률을 보이며, ‘refactor’, ‘build’ 등 구조적 변경은 낮다. 해결 시간은 iOS가 안드로이드보다 평균 18배 빠르며, 안드로이드에서는 2025년 중반까지 개선되었다가 다시 악화되는 추세를 보인다.

상세 분석

본 연구는 AI 코딩 에이전트가 모바일 OSS에 미치는 영향을 최초로 카테고리 수준에서 정량화하였다. 데이터 수집 단계에서 저자들은 AIDev 데이터셋을 기반으로 AndroidManifest.xml·Gradle, Info.plist·Xcode 프로젝트 파일 존재 여부를 검증해 네이티브 안드로이드·iOS 저장소만을 선별하였다. 별점 10점 미만과 튜토리얼·샘플 저장소를 제외함으로써 실제 유지보수가 이루어지는 프로젝트에 초점을 맞추었다. 결과적으로 193개의 프로젝트(안드로이드 98, iOS 95)에서 2,901개의 AI‑작성 PR을 확보했으며, 이는 전체 AIDev 데이터셋 대비 플랫폼 불균형을 자연스럽게 반영한다.

PR 카테고리 정의는 GPT‑5를 활용한 오픈‑카드 정렬과 전문가 검증을 거쳐 13개의 작업 유형(Feature, Fix, Refactor 등)으로 확정되었다. 검증 샘플(284개)에서 Cohen’s κ=0.877이라는 높은 일치도를 기록, 라벨링 신뢰성을 확보하였다. 통계 분석에서는 베이지안 스무딩을 적용해 소규모 샘플 편향을 보정하고, 비정규 분포에 적합한 Mann‑Whitney U, Chi‑Square, Kruskal‑Wallis 검정을 사용했으며, 다중 비교 시 Holm 보정을 적용해 Type I 오류를 최소화하였다.

플랫폼별 PR 수용률 차이는 통계적으로 유의(p<0.05)했으며, 안드로이드에서는 Codex가 76.8%로 가장 높은 수용률을 보인 반면, Copilot(28.0%)과 Cursor(42.3%)는 현저히 낮았다. iOS에서는 모든 에이전트가 51%~79% 사이의 비슷한 수용률을 나타냈다. 이는 안드로이드가 빌드 시스템·의존성 관리가 복잡해 에이전트별 코드 품질 차이가 크게 반영되는 반면, iOS는 엄격한 디자인 가이드와 CI 정책으로 전반적인 진입 장벽이 높아 에이전트 차이가 희미하게 나타나는 것으로 해석된다.

작업 카테고리별 분석에서는 안드로이드에서 Localization(100%), UI(88%), Fix(75%)가 높은 수용률을 보였으며, Refactor, Feature, Build은 낮은 편이었다. iOS는 카테고리 간 차이가 통계적으로 유의하지 않아 전반적으로 균일한 수용 패턴을 보였다. 이는 안드로이드 프로젝트가 일상적인 UI·문자열 수정에 대해 자동화에 더 개방적이며, 구조적 변경은 여전히 인간 리뷰어의 심층 검토가 필요함을 시사한다.

PR 해결 시간 측면에서는 iOS가 평균 18배 빠른 것으로 나타났으며, 안드로이드에서는 Codex가 Claude보다 3배 빠르게 해결되는 등 에이전트 간 차이가 존재한다. 기능적 PR(Feature, UI, Localization, Fix)은 비기능적 PR(Refactor, Build 등)보다 각각 안드로이드에서 400배, iOS에서 7배 빠르게 처리되었다. 안드로이드의 해결 시간은 2025년 중반까지 점진적으로 감소했으나, 이후 다시 상승하는 비정상적인 패턴을 보였으며, 이는 리뷰어 피로도, CI 파이프라인 변동, 혹은 에이전트 업데이트 주기와 연관될 가능성이 있다. iOS는 전반적으로 안정적인 해결 시간을 유지했지만, 변동 폭이 작아 시각적으로는 큰 변화가 없었다.

위 결과들을 종합하면, AI 코딩 에이전트의 효과는 플랫폼 특성, 작업 유형, 그리고 선택된 에이전트에 따라 크게 달라진다. 안드로이드에서는 에이전트 선택이 중요한 전략적 요소이며, 구조적 변경 자동화에는 추가적인 검증 메커니즘이 필요하다. iOS는 전반적으로 보수적인 수용 태도를 보이지만, 빠른 해결 시간 덕분에 자동화 도입에 있어 높은 효율성을 기대할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기