DevOps Gym AI 에이전트 전 단계 평가 벤치마크
초록
DevOps‑Gym은 실제 Java와 Go 프로젝트를 기반으로 700여 개의 실무 DevOps 작업을 수집·구성한 최초의 종단‑형 벤치마크이다. 빌드·구성, 모니터링, 이슈 해결, 테스트 생성 네 단계와 이들을 연계한 파이프라인 과제를 제공하며, 최신 LLM 기반 에이전트들의 성능을 종합적으로 측정한다. 실험 결과 현재 모델들은 특히 모니터링·빌드·구성 단계에서 낮은 성공률을 보이며, 전반적인 자동화에 큰 한계가 있음을 드러낸다.
상세 분석
본 논문은 DevOps 사이클 전반을 포괄하는 평가 환경을 설계함으로써 기존 코드 생성·이슈 해결 중심 벤치마크와 차별화한다. 첫째, 작업 선정 과정에서 1,000여 개 이상의 GitHub 이슈를 직접 분석하고, 빌드·구성 오류, 의존성 충돌, 런타임 성능 이상 등 실제 현업에서 빈번히 발생하는 문제 유형을 체계화하였다. 이를 통해 54개의 빌드·구성 과제(실제 이슈 34개와 합성 이슈 20개), 34개의 모니터링 과제(실제 5개, 합성 29개), 각각 310개의 이슈 해결 및 테스트 생성 과제를 확보하였다.
둘째, 각 단계별로 필요한 도구 집합을 명시하고, TerminalBench 형식의 표준화된 툴 호출 인터페이스를 제공한다. 예를 들어, 빌드 단계에서는 Maven, Gradle, npm, Go modules 등을, 모니터링 단계에서는 top, iostat, ps, pprof 등 시스템 진단 도구를 에이전트가 직접 호출하도록 설계하였다. 이러한 인터페이스는 LLM이 단순 텍스트 생성에 머무르지 않고, 실제 명령어 실행 결과를 파싱·판단하는 능력을 평가한다.
셋째, 데이터 오염 방지를 위해 사전 학습 코퍼스와의 중복 여부를 자동화된 프리픽스‑완성 분석으로 검증하고, Git 메타데이터를 제거해 레포지토리 내부 히스토리를 통한 정답 유출을 차단하였다. 또한, 실험 재현성을 위해 각 과제별 환경을 Docker 기반으로 격리하고, 의존성 버전 고정, 입력 파일 제공 등 재현 가능한 파이프라인을 구축하였다.
실험에서는 5가지 LLM(예: GPT‑4, Claude‑2, Llama‑2 등)과 4가지 에이전트 프레임워크(예: Auto‑GPT, ReAct, BabyAGI, OpenAI Function‑Calling)를 조합해 총 12개 에이전트를 평가했다. 결과는 빌드·구성 단계에서 최고 51.85% 성공률, 모니터링 20.56%, 이슈 해결 23.87%, 테스트 생성 13.87%에 불과했다. 특히, Java·Go와 같은 컴파일 언어에서의 테스트 생성 성능이 Python‑전용 벤치마크에 비해 급격히 저하된 점이 눈에 띈다. 이는 LLM이 도메인‑특화 툴 사용 경험이 부족하고, 장기 컨텍스트(예: 로그 분석, 메모리 사용 추이) 유지에 한계가 있음을 시사한다.
마지막으로, 저자들은 현재 모델이 고수준 플래닝(예: 빌드 파이프라인 설계)과 툴 호출 순서 최적화에서 지속적으로 실패한다는 점을 강조한다. 이는 툴 사용 데이터가 사전 학습에 충분히 포함되지 않았거나, 에이전트가 목표‑지향적 행동을 학습하도록 설계되지 않았기 때문일 가능성이 크다. 따라서 향후 연구는 (1) DevOps 툴 사용 로그를 활용한 사전 학습, (2) 장기 메모리와 리워드 기반 플래닝을 결합한 에이전트 설계, (3) 멀티모달(코드·로그·메트릭) 입력 처리 능력 강화에 초점을 맞춰야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기