MoonBit 기반 사양‑주도 자동 소프트웨어 구축 벤치마크 SWE‑AGI

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SWE‑AGI는 MoonBit 언어로 작성된 22개의 대규모 과제(1 000‑10 000 LOC)를 제공해, LLM 기반 에이전트가 RFC·표준 사양만을 이용해 완전한 시스템을 설계·구현·테스트하도록 평가한다. gpt‑5.3‑codex가 86 % 성공률로 최고이며, 과제 난이도가 높아질수록 성능이 급격히 떨어진다. 분석 결과, 코드 규모가 커질수록 코드를 읽는 시간이 작성 시간보다 크게 늘어나, 사양 이해와 아키텍처 설계가 주요 병목임을 보여준다.

상세 분석

SWE‑AGI는 기존 코딩·리포지터리 기반 벤치마크와 달리 “사양‑주도”라는 새로운 평가 패러다임을 제시한다. MoonBit을 선택한 이유는 아직 학습 데이터에 거의 포함되지 않아 모델이 기존 구현을 그대로 복제하기 어렵게 만들기 위함이다. 과제는 22개로, 파서·인터프리터·바이너리 디코더·SAT 솔버 등 복잡한 시스템을 포함한다. 각 과제는 (1) TASK.md에 정의된 목표와 제약, (2) specs/ 폴더에 있는 권위 있는 RFC·표준 문서, (3) 선언‑우선 API 스캐폴드, (4) 공개 테스트와 비공개 테스트로 구성된다. 에이전트는 사양을 읽고, 설계·구현·로컬 테스트·제출·피드백 순환을 반복한다.

성능 측면에서 가장 최신 모델인 gpt‑5.3‑codex가 19/22 과제를 해결했으며, 특히 Easy 티어 전부를, Medium 티어에서도 7/8을 맞추었다. 반면 Hard 티어에서는 2/8에 머물렀다. Claude‑opus‑4.6은 전체 15/22, Kimi‑2.5는 오픈소스 모델 중 최고였지만 Easy 티어에서도 2/6 이하의 성공률에 그쳤다. 이는 현재 LLM이 복잡한 사양을 완전히 이해하고 장기 아키텍처를 설계하는 데 한계가 있음을 시사한다.

행동 로그 분석에서는 코드 작성보다 코드 읽기가 전체 작업 시간의 55 % 이상을 차지한다는 점이 눈에 띈다. 특히 gpt‑5.2‑codex는 이해 단계가 길어 전체 솔루션 시간은 평균 2.3배 증가했으며, gpt‑5.3‑codex는 디버깅 비중을 높이고 불필요한 로그를 최소화해 효율성을 개선했다. 이는 “읽기‑쓰기 비대칭”이 대규모 자동 소프트웨어 개발의 주요 병목임을 의미한다.

또한, MoonBit의 선언‑우선(declare) 문법과 통합 빌드·테스트 도구(moon)는 에이전트가 인터페이스를 먼저 정의하고 점진적으로 구현하도록 강제함으로써, 사양‑기반 설계 과정을 자연스럽게 모델링한다. 테스트는 공개·비공개로 구분돼 과제 제출 전 과도한 오버피팅을 방지한다.

결론적으로, SWE‑AGI는 LLM 기반 자동 소프트웨어 엔지니어링의 현재 수준을 정량화하고, 사양 이해·아키텍처 설계·코드 읽기라는 세 가지 핵심 역량을 강조한다. 모델이 인간 수준의 생산성을 달성하려면 장기 기억 관리, 모듈화 설계, 그리고 사양‑코드 매핑 능력이 크게 향상돼야 한다.

MoonBit 기반 사양‑주도 자동 소프트웨어 구축 벤치마크 SWE‑AGI

초록

상세 분석

댓글 및 학술 토론

의견 남기기