자기 진화 벤치마크 TRACE: 실행 궤적 기반 에이전트 과제 자동 확장
초록
TRACE는 기존 벤치마크의 과제를 에이전트가 실시간 탐색·진화시켜 난이도를 높이고, 그 과정에서 생성된 실행 궤적을 검증 가능한 1차 자료로 저장한다. 세 단계(제안 채굴 → 자유 탐색 → 다중 수준 검증)를 통해 GAIA와 AIME‑2024 등에서 과제 복잡성을 지속적으로 상승시켰으며, 모델 성능이 하락하는 것을 확인했다.
상세 분석
본 논문은 에이전트 벤치마크가 빠르게 포화 상태에 이르는 현상을 해결하고자, “Trajectory‑based Validated‑by‑Reproducing Agent‑benchmark Complexity Evolution”(TRACE)이라는 프레임워크를 제안한다. 핵심 아이디어는 과제 자체가 정적인 정답만을 검증하는 것이 아니라, 에이전트가 수행한 **실행 궤적(trajectory)**을 첫 번째 클래스 아티팩트로 삼아 검증·재현 가능성을 확보한다는 점이다. 이를 위해 저자들은 에이전트 작업 흐름을 유향 비순환 그래프(DAG) 로 형식화하였다. 각 노드 S_i는 (c_{i‑1}, r_i, a_i, o_i) 네 요소로 구성되며, 여기서 a_i는 실제 환경에 실행되는 행동(툴 호출, 코드 실행 등)이고, o_i는 그에 대한 관찰(툴 출력, 웹 페이지 등)이다. 이러한 DAG 위에서 궤적 τ = ⟨S_1,…,S_T⟩ 를 정의하고, 기존 정답 검증을 τ 전체에 대한 논리적 일관성과 재현성 검증으로 확장한다.
TRACE는 세 단계 파이프라인으로 동작한다.
1️⃣ Evolutionary Proposal Mining 단계에서는 “병목 인식(bottleneck‑aware) 사전 탐색”을 수행한다. 원본 과제와 기존 솔루션 궤적을 분석해, 현재 과제가 주로 요구하는 능력(플래닝, 추론, 툴 사용 등)과 가장 취약한 지점을 식별한다. 이를 기반으로 다중 방향의 진화 제안을 생성한다. 예시로는 단일 검색 질문을 “비디오 배우 → 영화 → 음악 경력”이라는 다중 도메인 연쇄 추론으로 확장하는 것이 있다.
2️⃣ Problem Construction & Free Exploration 단계에서는 제안을 구체적인 문제 형태로 구현한다. Exploration Executor는 제안에 따라 새로운 행동 흐름을 삽입하고, 실시간 웹·API 환경을 탐색하면서 전체 실행 궤적 τ′를 기록한다. 이때 에이전트는 기존 과제를 해결하는 것이 아니라, 제안된 변형을 구현하는 역할을 수행한다. 따라서 새로운 과제는 원본 과제와는 다른 구조적·논리적 복잡성을 갖게 된다.
3️⃣ Multi‑Level Validation 단계에서는 Trajectory Validator가 τ′를 재실행해 재현성을 확인하고, 논리적 일관성(예: 도구 호출 순서, 데이터 흐름)과 안전성(민감 정보 노출 방지)을 검증한다. 검증에 통과한 경우에만 (진화된 문제, 검증된 궤적) 쌍이 최종 벤치마크에 추가된다.
실험에서는 GAIA 벤치마크와 AIME‑2024 추론 데이터셋에 TRACE를 적용하였다. 진화 라운드가 증가할수록 Pass@1 점수가 지속적으로 하락했으며, 이는 과제 난이도가 실제로 상승했음을 보여준다. 특히, 기존 모델들이 90% 이상을 맞추던 GAIA 과제가 3라운드 후에는 65% 수준으로 떨어졌다. 또한, 진화된 과제는 원본과 다른 능력(예: 코드 작성, 수학적 증명)으로 전이되는 “Seed‑to‑Spark” 현상을 보였으며, 이는 벤치마크 다양성 확대에 기여한다.
핵심 기여는 (1) 실행 궤적을 검증 가능한 첫 번째 클래스 아티팩트로 삼아 벤치마크 진화를 자동화한 점, (2) 정적·규칙 기반 변형이 아닌 에이전트 주도 탐색을 통해 구조적·논리적 복잡성을 크게 향상시킨 점, (3) 다양한 도메인으로의 전이를 가능하게 함으로써 기존 벤치마크의 포화 문제를 근본적으로 해결한 점이다. 한계로는 실시간 웹 환경 의존성으로 인한 재현 비용 증가와, 제안 단계에서 발생할 수 있는 불필요한 난이도 상승(과도히 복잡하거나 비현실적인 과제) 등을 들 수 있다. 향후 연구에서는 비용 효율적인 시뮬레이션 환경 구축, 자동 난이도 조절 메커니즘, 그리고 인간‑에이전트 협업을 통한 품질 보증 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기