코드 샌드박스로 끌어낸 일반 에이전트 지능
초록
LLM‑in‑Sandbox는 대형 언어 모델에 가상 컴퓨터(코드 샌드박스)를 연결해, 모델이 파일 관리·외부 자원 접근·코드 실행이라는 세 가지 메타 기능을 스스로 활용하도록 한다. 사전 학습 없이도 강력한 LLM은 수학, 물리, 화학, 바이오메디컬, 장문 이해, 명령 따르기 등 비코드 영역에서 성능 향상을 보이며, 약한 모델은 LLM‑in‑Sandbox‑RL이라는 강화학습 기법으로 비에이전트 데이터만 사용해 샌드박스 탐색 능력을 학습한다. 실험 결과와 시스템 효율성 분석을 통해 이 접근법이 토큰 사용량 감소와 실시간 추론 비용 절감에 기여함을 보여준다.
상세 분석
본 논문은 “LLM‑in‑Sandbox”라는 새로운 프레임워크를 제안한다. 핵심 아이디어는 LLM에게 Ubuntu 기반 Docker 컨테이너 형태의 가상 컴퓨터를 제공하고, 모델이 “execute_bash”, “str_replace_editor”, “submit”이라는 세 가지 기본 툴을 통해 터미널 명령 실행, 파일 생성·편집·읽기, 그리고 작업 종료 신호를 보낼 수 있게 하는 것이다. 이러한 메타‑캡빌리티는 인간이 컴퓨터를 활용해 거의 모든 문제를 해결하는 방식과 직접 대응한다는 점에서 의미가 크다.
-
설계 원칙 – 최소(minimal)와 탐색성(exploratory)을 강조한다. 최소한의 일반‑목적 파이썬 환경과 과학 라이브러리(Numpy, Scipy 등)만 제공하고, 도메인‑특화 툴은 모델이 스스로 apt‑get, pip 등을 이용해 설치하도록 설계했다. 이는 환경을 일관되게 유지하면서도 다양한 분야에 확장성을 부여한다.
-
워크플로우 – ReAct 프레임워크를 차용해 모델이 “생각 → 행동 → 관찰 → 다음 생각”의 순환을 다중 턴으로 수행한다. 시스템 프롬프트는 모델에게 계산은 코드 실행으로, 답은 지정된 파일에 저장하도록 명시한다. 입력이 대용량일 경우 파일 시스템에 배치하고, 모델은 grep·sed·awk 등 쉘 도구와 파이썬 스크립트를 조합해 필요한 정보를 추출한다.
-
실험 설계 – 7개의 최신 LLM(Claude‑Sonnet‑4.5‑Think, GPT‑5, DeepSeek‑V3.2‑Thinking 등)을 대상으로 수학, 물리, 화학, 바이오메디컬, 장문 이해, 명령 따르기 6개 비코드 도메인에서 성능을 비교했다. “LLM‑in‑Sandbox” 모드와 기존 “LLM” 모드(프롬프트 직접 출력) 간 차이를 Δ로 표시한다. 강력한 모델은 대부분 도메인마다 +1%~+15%의 향상을 보였으며, 특히 Qwen3‑Coder‑30B‑A3B는 수학에서 +15.5%까지 기록했다. 반면 파라미터가 적은 Qwen3‑4B‑Instruct‑2507은 샌드박스 활용에 어려움을 보여 성능이 감소했다.
-
LLM‑in‑Sandbox‑RL – 약한 모델의 성능 격차를 해소하기 위해 비에이전트 데이터(일반 텍스트‑기반 컨텍스트 작업)를 활용한 강화학습을 도입했다. 작업 요구사항을 파일 형태로 제공하고, 모델이 파일을 읽고 실행 결과를 기반으로 보상을 받는다. 결과적으로 약한 모델도 샌드박스 모드에서 기존 LLM 모드를 능가하게 되었으며, 일부 경우에는 일반 LLM 모드까지 향상되었다.
-
효율성 분석 – 장문 이해 실험에서 토큰 사용량을 100K → 13K으로 8배 절감했으며, 평균 쿼리당 처리량은 기존 API 호출 수준과 비슷했다. 샌드박스 인프라 비용은 공유 이미지(≈1.1 GB)만 유지하면 되므로 대규모 배포 시 스토리지 오버헤드가 최소화된다.
-
오픈소스 및 적용 가능성 – Python 패키지 형태로 공개돼 vLLM, SGLang 등 다양한 추론 백엔드와 손쉽게 통합할 수 있다. 이는 연구자와 엔지니어가 기존 LLM에 샌드박스 레이어만 추가해 에이전트형 지능을 빠르게 실험할 수 있게 한다.
전반적으로 논문은 “코드 샌드박스 + LLM” 조합이 비코드 영역에서도 강력한 일반 지능을 발현시킬 수 있음을 실증하고, 강화학습을 통한 보강 방법까지 제시함으로써 향후 AGI 연구에 새로운 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기