팀 기반 자율 소프트웨어 엔지니어링을 위한 멀티에이전트 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델을 활용해 실제 소프트웨어 개발 조직을 모방한 자동화 멀티에이전트 시스템을 제안한다. Agyn 플랫폼 위에 매니저, 연구원, 엔지니어, 리뷰어 네 역할을 정의하고 각 역할에 맞는 모델·툴·샌드박스를 제공한다. GitHub 기반 워크플로우를 그대로 구현해 이슈 분석‑작업 명세‑풀 리퀘스트 생성‑리뷰‑수정 과정을 인간 개입 없이 수행한다. SWE‑bench 500 평가에서 72.2%의 해결율을 기록, 단일 에이전트 베이스라인보다 7.4%p 높은 성능을 보이며 조직적 설계가 성능 향상의 핵심임을 입증한다.

상세 분석

Agyn 시스템은 기존 단일 에이전트 방식이 안고 있던 “역할 혼재”와 “컨텍스트 불일치” 문제를 근본적으로 해결한다. 매니저는 전역 상태와 진행 흐름을 관리하며, 연구원은 대규모 컨텍스트와 추론 능력이 뛰어난 GPT‑5 모델을 이용해 이슈와 레포지토리를 탐색하고 작업 명세를 도출한다. 엔지니어는 코드 전용 GPT‑5‑CodeX와 같은 경량 모델을 사용해 실제 코딩·디버깅을 수행하고, 테스트 실행까지 자동화한다. 리뷰어는 풀 리퀘스트를 생성하고 인라인 코멘트를 달아 피드백을 제공함으로써 인간 개발자가 수행하는 코드 리뷰 과정을 그대로 재현한다. 각 에이전트는 독립적인 샌드박스(Nix 기반 패키지 매니저와 Git 환경)를 갖추어 서로의 실험 결과가 충돌하지 않도록 격리한다. 이러한 격리와 역할 분리는 서로 다른 작업 단계가 요구하는 컨텍스트 크기와 연산 비용을 최적화한다는 점에서 효율성을 크게 높인다. 또한, 매니저가 동적으로 단계 수와 반복 횟수를 조정함으로써 고정된 파이프라인이 아닌 실제 개발 프로세스와 유사한 비선형 흐름을 구현한다. 시스템은 GitHub API를 직접 호출해 이슈 생성, 브랜치 관리, 풀 리퀘스트 생성·머지·코멘트 등을 수행하므로, 평가 환경과 실제 운영 환경 사이의 격차가 최소화된다. SWE‑bench 500에 대한 사후 평가 결과, 72.2%의 해결율은 동일 모델을 사용한 mini‑SWE‑agent(≈64.8%)보다 현저히 높으며, 이는 모델 자체의 성능보다 조직적 설계와 역할 기반 인프라가 성능에 큰 영향을 미친다는 가설을 뒷받침한다. 또한, 비용 효율성 측면에서 구현 단계에 경량 모델을 사용함으로써 전체 토큰 사용량을 절감하고, 추론 중심 단계에만 고비용 모델을 할당하는 전략이 실용적인 운영 비용을 유지하면서도 높은 성공률을 달성한다는 점을 보여준다.

팀 기반 자율 소프트웨어 엔지니어링을 위한 멀티에이전트 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기