자연어 기반 에이전트 하네스와 지능형 실행 런타임

본 논문은 에이전트 성능을 좌우하는 “하네스 엔지니어링”을 과학적 객체로서 명확히 정의하고, 이를 자연어 텍스트 형태로 외부화한 **Natural‑Language Agent Harness (NLAH)**와, 그 텍스트를 실행할 수 있는 **Intelligent Harness Runtime (IHR)**을 제안한다. 기존 연구에서는 하네스 로직이 컨트롤러 코드, 프레임워크 기본값, 도구 어댑터 등에 흩어져 있어 이식·비교가 어려웠다. 저자는 하네스를 “첫 번째 클래스 시스템 객체”로 승격시켜, 자연어로 기술된 하네스가 직접 실행 가능한 아티팩트가 되도록 설계하였다. ### 1. NLAH 설계 NLAH는 **계약(Contracts)**, **역할(Roles)**, **단계 구조(Stage Structure)**, **어댑터·스크립트(Adapters & Scripts)**, **상태 의미(State Semantics)**, **실패 분류(Failure Taxonomy)**의 여섯 가지 핵심 요소를 명시한다. - **계약**은 입력·출력 형식, 검증 게이트, 권한 경계, 재시도·중단 규칙 등을 정의해 런타임이 흐름을 강제한다. - **역할**은 플래너, 솔버, 검증자, 디버거 등으로 구분되며, 각 역할은 독립적인 프롬프트를 갖는다. - **단계 구조**는 “계획 → 실행 → 검증 → 복구”와 같은 워크플로우를 트리 형태로 기술하고, 단계 전이는 계약에 의해 제어된다. - **어댑터·스크립트**는 테스트 실행, 코드 파싱, 파일 입출력 등 결정론적 작업을 외부 스크립트로 분리해, 자연어 로직이 비결정적 LLM 호출만 담당하도록 한다. - **상태 의미**는 파일‑백드(state) 모듈을 통해 아티팩트와 로그를 경로 기반으로 영구 저장한다. 이는 장기 실행 시 컨텍스트 손실을 방지하고, 재시작·분기 시 동일 상태를 재현한다. - **실패 분류**는 포맷 오류, 테스트 실패, 도구 오류 등 미리 정의된 실패 유형을 지정하고, 각 유형에 대한 복구 전략을 하네스에 명시한다. ### 2. IHR 구조 IHR은 세 부분으로 구성된다. 1) **인‑루프 LLM**: 현재 NLAH와 상태, 런타임 차터를 읽고 다음 행동을 선택한다. 2) **백엔드**: 터미널 도구, 멀티‑에이전트 인터페이스(spawn_agent, wait_agent 등)를 제공해 실제 작업을 수행한다. 3) **런타임 차터(Runtime Charter)**: 계약 해석, 상태 관리, 자식 에이전트 수명 주기 등을 정의한다. 이 구조는 하네스 로직과 런타임 정책을 명확히 분리함으로써, 동일 런타임 위에서 서로 다른 하네스를 비교·조합할 수 있게 만든다. ### 3. 실험 설계 및 결과 연구 질문은 세 가지이다. - **RQ1 (Behavioral Effect)**: 공유 런타임 차터와 베이스라인 하네스 로직이 고정된 예산 하에서 에이전트 행동에 미치는 영향. - **RQ2 (Composability)**: 하네스 패턴을 명시적으로 분리했을 때 모듈을 조합·제거할 수 있는가. - **RQ3 (Migration)**: 기존 코드‑기반 하네스를 자연어 형태로 변환했을 때 성능 차이가 있는가. 실험은 두 벤치마크(코딩: SWE‑bench Verified, 컴퓨터 사용: OSWorld)와 두 하네스 패밀리(TRA‑E 스타일 멀티‑candidate 검색, Live‑SWE‑Agent)에서 진행되었다. 동일 IHR 인스턴스(Codex CLI 0.114.0, GPT‑5.4)와 고정된 하드웨어·컨테이너 환경에서 실행하였다. **RQ1 결과**: Full IHR 설정이 토큰 수, LLM 호출 수, 툴 호출 수, 실행 시간 등 프로세스 비용을 크게 늘렸다(예: TRAE에서 툴 호출 211k → 137k, LLM 호출 642.6 → 451.9분). 그러나 해결률은 크게 변동하지 않았으며, 대부분의 샘플(>110/125)에서 Full IHR과 각 ablation이 동일한 결과를 보였다. 이는 하네스가 단순 프롬프트 래퍼가 아니라, 실행 흐름을 재구성하는 ‘행동 제어 장치’임을 의미한다. **RQ2 결과**: 기본 하네스에 파일‑백드 상태 모듈, 어댑터, 추가 검증 단계 등을 순차적으로 삽입했을 때, 각 모듈이 독립적으로 활성·비활성화될 수 있음을 확인했다. 이는 하네스 패턴이 모듈화되어 재사용·조합이 가능함을 입증한다. **RQ3 결과**: 코드‑기반 하네스를 자연어(NLAH) 형태로 마이그레이션한 경우, 동일 IHR에서 성능 차이가 미미했다. 이는 자연어 하네스가 실행 가능한 ‘실제 코드’와 동등한 역할을 할 수 있음을 보여준다. ### 4. 의의와 한계 본 연구는 하네스 설계를 텍스트 기반 계약·역할·단계라는 형식적 메타모델로 추상화하고, 이를 실행 가능한 런타임과 결합함으로써 에이전트 시스템의 재현성·비교 가능성·모듈성 문제를 해결하려는 시도이다. 특히 파일‑백드 상태 모듈과 명시적 실패 분류는 장기 자동화 시나리오에서 흔히 발생하는 컨텍스트 손실과 오류 복구 문제를 효과적으로 다룰 수 있게 한다. 한편, 실험은 제한된 샘플(코딩 125개, 컴퓨터 사용 36개)과 단일 모델(GPT‑5.4)에 의존하고 있어, 다양한 모델·도구·도메인에 대한 일반화 가능성은 추가 연구가 필요하다. 또한 자연어 하네스가 복잡한 논리나 조건을 충분히 표현할 수 있는지, 인간이 작성한 하네스와 자동 생성된 하네스 간의 품질 차이를 어떻게 평가할 것인지 등도 향후 과제로 남는다. ### 5. 결론 NLAH와 IHR은 에이전트 하네스를 첫 번째 클래스 시스템 객체로 승격시켜, 하네스 로직을 편집·공유·재사용 가능한 텍스트 아티팩트로 만든다. 공유 런타임 차터와 결합함으로써 하네스 패턴을 명시적으로 제어하고, 모듈 조합·제거·마이그레이션을 가능하게 한다. 실험 결과는 프로세스 비용이 증가하더라도 하네스가 에이전트 행동에 실질적인 영향을 미치며, 하네스 설계가 과학적 비교와 재현을 위한 새로운 연구 단위가 될 수 있음을 시사한다.

자연어 기반 에이전트 하네스와 지능형 실행 런타임

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기