TodoEvolve: 에이전트 플래닝 시스템을 자동 설계하는 메타 플래너

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TodoEvolve는 PlanFactory라는 통합 설계 공간을 활용해 다양한 플래닝 구조를 표준화하고, IGPO(임피던스‑가이드 선호 최적화)라는 다목적 강화학습 목표로 메타 플래너 Todo‑14B를 학습한다. 이 메타 플래너는 주어진 과제에 맞춰 토폴로지, 초기화, 적응, 네비게이션 네 가지 차원을 동적으로 조합해 맞춤형 플래닝 시스템을 생성한다. 실험 결과, 다섯 개 벤치마크에서 기존 수작업 플래닝 모듈을 일관적으로 능가하면서 API 비용과 실행 오버헤드도 낮추었다.

상세 분석

본 논문은 현재 LLM 기반 에이전트가 직면한 “플래닝 구조의 고정성” 문제를 메타‑플래닝이라는 새로운 패러다임으로 해결하고자 한다. 핵심 기여는 크게 세 부분으로 나눌 수 있다. 첫째, PlanFactory라는 모듈형 설계 공간을 정의한다. 여기서는 플래닝 시스템을 ‘토폴로지(구조), 초기화, 적응, 네비게이션’ 네 가지 기능 모듈로 분해하고, 기존 10여 개 대표 플래닝 아키텍처(선형 리스트, DAG, 트리, 계층적 노트 등)를 동일한 코드베이스에 재구현한다. 이를 통해 서로 다른 플래닝 패턴을 동일한 인터페이스로 호출할 수 있게 함으로써, 설계·평가·재현성을 크게 향상시켰다.

둘째, 메타 플래너 Todo‑14B를 학습시키기 위한 IGPO(임피던스‑가이드 선호 최적화) 방식을 제안한다. IGPO는 (1) 성능(보상), (2) 안정성(플래닝 구조의 일관성), (3) 토큰 효율성(코드·프롬프트 길이)이라는 세 가지 목표를 동시에 최적화한다. 데이터 구축 단계에서는 ‘Bootstrap‑and‑Filter’ 파이프라인을 사용해, 표준화된 툴셋을 기반으로 진화적 샘플링을 수행하고, 실행‑as‑Judge 필터를 통해 성공적인 플래닝 코드만을 데이터셋에 포함한다. 이후 SFT 단계에서 기본 능력을 학습하고, IGPO 단계에서 선호 쌍을 이용해 승자 플래닝이 더 높은 보상을 받도록 강화학습한다. 임피던스라는 개념은 플래닝 구조가 과도하게 복잡해지면 토큰 비용이 급증하고 안정성이 저하된다는 점을 정량화해, 학습 과정에서 이러한 ‘저항’을 최소화하도록 유도한다.

셋째, 실험에서는 다섯 개의 에이전트 벤치마크(예: GAIA, xBench‑DS 등)와 다양한 LLM 백본(GPT‑5‑Mini, Claude‑2 등)에서 TodoEvolve를 평가한다. 결과는 기존 수작업 설계 플래닝 모듈 대비 평균 12‑16%의 성공률 향상을 보였으며, 토큰 사용량과 API 호출 비용도 20% 이상 절감했다. 특히 멀티‑에이전트 시나리오에서 동적 토폴로지 재구성 능력이 두드러져, 복잡한 협업 작업에서 기존 고정형 DAG 플래너보다 월등한 성능을 나타냈다.

이러한 설계는 플래닝 시스템 자체를 학습 가능한 객체로 만든 점에서 혁신적이다. 기존 연구들은 주로 정책·툴 선택을 최적화했지만, 본 연구는 플래닝 아키텍처 자체를 자동 생성·조정함으로써 “플래닝 설계 자동화”라는 새로운 연구 방향을 제시한다. 또한 PlanFactory라는 공개 코드베이스는 향후 다양한 플래닝 아이디어를 빠르게 시험하고 비교할 수 있는 표준 플랫폼을 제공한다는 점에서 커뮤니티에 큰 가치를 제공한다. 다만, 현재는 고품질 실행‑as‑Judge 필터에 크게 의존하고 있어, 복잡도 높은 실제 환경에서의 일반화 여부와 필터링 비용이 남은 과제로 남는다.

TodoEvolve: 에이전트 플래닝 시스템을 자동 설계하는 메타 플래너

초록

상세 분석

댓글 및 학술 토론

의견 남기기