Docker 없이 소프트웨어 엔지니어링 에이전트 학습을 가능하게 하는 SWE‑World

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SWE‑World는 물리적 Docker 컨테이너 대신 LLM 기반의 학습된 대리 환경을 사용해 소프트웨어 엔지니어링 에이전트를 훈련·평가한다. 경량 파일‑시스템 작업은 샌드박스로 직접 처리하고, 코드 실행·테스트 피드백은 전용 전이·보상 모델이 예측한다. 이를 통해 SFT와 RL을 Docker 없이 수행하고, 테스트‑타임 스케일링(TTS)까지 지원한다. SWE‑bench Verified 실험에서 Qwen2.5‑Coder‑32B는 기본 6.2 %에서 52.0 %(SFT), 55.0 %(RL), 68.2 %(TTS)로 크게 향상되었다.

상세 분석

본 논문은 기존 SWE 에이전트가 Docker 기반 의존성‑완전 환경에 의존함으로써 발생하는 데이터·학습·테스트 단계의 확장성 병목을 근본적으로 해소하고자 한다. 핵심 아이디어는 “경량 파일·편집 작업은 deterministic sandbox에서 직접 수행하고, 무거운 실행·테스트 피드백만을 LLM‑기반 전이 모델과 보상 모델이 대체한다”는 점이다. 전이 모델(SWT)은 실제 에이전트‑Docker 상호작용 로그를 학습해, execute_bash, run_tests 등 실행 명령에 대한 stdout·stderr·성공 여부를 예측한다. 보상 모델(SWR)은 최종 패치를 입력받아 가상 테스트 러너 역할을 수행, 테스트 리포트와 binary reward(0/1)를 생성한다. 이러한 두 모델은 각각 단계‑레벨 동적 피드백과 에피소드 종료 시점의 최종 평가를 제공함으로써, 전통적인 Docker‑based 환경과 동일한 인터페이스를 유지한다.

실험에서는 SWE‑bench Verified 데이터셋을 활용해, Docker‑free SFT만으로도 Qwen2.5‑Coder‑32B의 해결률을 6.2 %→52.0 %로 끌어올렸다. 이어 RL 단계에서 추가 3 % 상승, 테스트‑타임 스케일링(TTS)에서 8개의 후보 패치를 가상 보상 모델로 평가해 최종 68.2 %를 달성했다. 작은 모델(Qwen3‑4B‑Instruct)도 25.6 %→30.0 %로 개선되는 등, 모델 규모에 관계없이 효과가 입증된다.

또한, Docker 이미지 관리·배포 비용이 사라짐에 따라 수천 개의 GitHub 리포지터리를 손쉽게 데이터화할 수 있게 되었다. 이는 기존 SWE‑Gym, SWE‑rebench 등에서 요구되던 per‑sample Docker 구축 비용을 크게 절감한다. 논문은 환경 설계, 데이터 수집 파이프라인, 모델 학습 방법론, 그리고 실험 결과를 체계적으로 제시하며, 향후 LLM‑기반 세계 모델링이 소프트웨어 엔지니어링 자동화에 미칠 파급 효과를 전망한다.

Docker 없이 소프트웨어 엔지니어링 에이전트 학습을 가능하게 하는 SWE‑World

초록

상세 분석

댓글 및 학술 토론

의견 남기기