DockSmith 신뢰성 코딩 환경 확장을 위한 에이전트형 Docker 빌더

DockSmith 신뢰성 코딩 환경 확장을 위한 에이전트형 Docker 빌더
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
DockSmith은 Docker 환경 구축을 단순 전처리 단계가 아니라 장기 도구 사용과 의존성 추론, 오류 복구를 요구하는 핵심 에이전트 능력으로 재정의한다. 대규모 실행 기반 Docker‑빌드 궤적을 이용해 30B‑A3B 모델을 학습시켜 Multi‑Docker‑Eval에서 39.72% Fail‑to‑Pass와 58.28% Commit Rate를 달성했으며, SWE‑bench Verified, SWE‑bench Multilingual, Terminal‑Bench 2.0 등 OOD 벤치마크에서도 성능 향상을 보였다.

**

상세 분석

**
본 논문은 소프트웨어 엔지니어링 에이전트의 확장성을 가로막는 가장 큰 병목인 “Docker 기반 환경 구축” 문제를 근본적으로 재구성한다. 기존 연구들은 환경 설정을 사전 작업(pre‑processing)으로 취급하고, 그 성공 여부를 단순히 빌드 성공 여부에만 의존해 왔다. DockSmith은 이를 “에이전트가 수행해야 할 장기 목표(task)”로 전환함으로써, 의존성 그래프 분석, 도구 호출 순서 설계, 그리고 빌드 실패 시 자동 복구 루프를 포함하는 복합적인 학습 신호를 제공한다.

핵심 기술은 크게 네 가지로 요약된다. 첫째, 멀티‑에이전트 파이프라인을 도입해 Context Retrieval, Dockerfile Generation, Eval Script Generation, Test Analysis 네 개의 전문화된 LLM 에이전트가 순차·반복적으로 상호작용한다. 둘째, 루프 탐지 컨트롤러가 동일 에이전트 조합이 연속적으로 실패할 경우 자동으로 전략을 전환해 무한 반복을 방지한다. 셋째, 크로스‑태스크 성공 메모리는 이전 레포지토리에서 검증된 Dockerfile·Eval Script 쌍을 가벼운 데모 형태로 재활용함으로써 새로운 레포지토리에서 초기 시도 성공률을 크게 높인다. 넷째, 데이터 커리케이션 단계에서 복잡도 기반 커리큘럼 샘플링을 적용해 Easy·Medium·Hard 빌드 과제를 균형 있게 학습한다.

데이터 측면에서는 15 k개 이상의 GitHub 레포지토리(10개 주요 언어)에서 200 k개의 고품질 PR 기반 궤적을 수집하고, 중복 제거와 언어별 토큰 균형을 통해 장기 의존성 문제와 언어 다양성을 동시에 다룰 수 있게 설계했다. 또한, 일반 코딩 궤적과의 공동 학습을 통해 Docker 전용 과잉 특화(over‑specialization)를 방지하고, 일반적인 코드 이해·디버깅 능력과의 시너지를 확보했다.

실험 결과는 두드러진데, Multi‑Docker‑Eval에서 기존 오픈소스 모델(DeepSeek‑v3.1, GPT‑OSS‑20B 등)의 F2P가 26~38% 수준인 반면 DockSmith은 39.72%를 기록했다. Commit Rate 역시 58.28%로 가장 높았다. 언어별 분석에서도 Python·JavaScript·Go 등 주요 언어에서 일관된 개선을 보였으며, 특히 의존성이 복잡한 C++·Rust·Ruby 레포에서도 성공률이 크게 상승했다. OOD 평가인 SWE‑bench Verified, SWE‑bench Multilingual, Terminal‑Bench 2.0에서도 각각 평균 2.8점, 3.1점, 3.37점의 절대적 성능 향상이 관찰되었다. 이는 환경 구축 능력이 단순히 “Docker 빌드”를 넘어, 전반적인 소프트웨어 에이전트의 문제 해결 능력에 긍정적 영향을 미친다는 가설을 실증한다.

한계점으로는 현재 30B 모델 규모에 국한된 실험이며, 더 큰 모델이나 최신 인프라와 결합했을 때의 스케일 효과는 아직 검증되지 않았다. 또한, 루프 탐지와 메모리 재사용 로직이 복잡해 실제 배포 환경에서의 비용과 유지보수 부담이 존재한다. 향후 연구에서는 경량화된 컨트롤러 설계, 메모리 효율성 개선, 그리고 다양한 CI/CD 파이프라인과의 통합을 통해 실무 적용성을 높일 필요가 있다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기