자동경험정제 LLM 에이전트 지속적 지식 축적과 유지
초록
AutoRefine은 LLM 기반 에이전트가 수행한 작업 궤적을 분석해 절차적 서브에이전트와 정적 스킬 패턴이라는 두 형태의 경험 패턴을 자동으로 추출하고, 점수 기반 유지·정제 메커니즘으로 저장소의 품질을 지속적으로 관리한다. ALFWorld, ScienceWorld, TravelPlanner에서 각각 98.4 %, 70.4 %, 27.1 %의 성공률을 달성했으며, 특히 TravelPlanner에서는 수동 설계 시스템을 크게 능가했다.
상세 분석
AutoRefine은 기존 경험 축적 방식이 텍스트 기반 평탄화에 머물러 절차적 로직을 표현하지 못하고, 저장소가 비대해지면 컨텍스트 창을 초과해 검색 효율이 떨어지는 문제를 해결한다. 이를 위해 저자는 두 가지 패턴 유형을 도입한다. 첫 번째는 “서브에이전트 패턴”으로, 복잡한 서브태스크(예: 호텔 예약, 교통 경로 계획)를 독립적인 메모리와 추론 모듈을 가진 작은 에이전트로 캡슐화한다. 서브에이전트는 자체 상태를 관리하고, 메인 에이전트는 해당 서브태스크가 감지되면 자동으로 위임한다. 이 계층적 구조는 메인 에이전트의 프롬프트 복잡성을 크게 낮추고, 조건 분기와 순차적 실행을 자연스럽게 구현한다. 두 번째는 “스킬 패턴”으로, 정적 지식이나 간단한 절차를 자연어 가이드 혹은 실행 가능한 코드 스니펫 형태로 저장한다. 두 패턴 모두 메타데이터(설명, 적용 컨텍스트, 조회·사용·성공 횟수, 임베딩 등)를 부여해 정량적 평가가 가능하도록 설계되었다.
패턴 추출 단계에서는 K(기본 10)개의 최근 궤적을 배치로 모아 성공·실패 집합을 대비 분석한다. 추출 전용 에이전트가 “대조적 시퀀스 분석” 프롬프트를 받아 반복적인 행동 시퀀스와 성공 요인을 식별하고, 이를 서브에이전트 혹은 스킬 패턴으로 일반화한다. 이 과정에서 조건부 분기, 오류 복구 로직 등 절차적 정보를 보존한다.
유지 메커니즘은 패턴 점수를 다음과 같이 정의한다.
score(p) = s·u + ε·effectiveness·log(1+u) + frequency·(1+u)/(r+ε)
여기서 s는 성공 사용 횟수, u는 실제 사용 횟수, r은 조회 횟수이며, ε는 안정성을 위한 작은 상수다. 점수가 낮은 패턴은 정기적으로 가지치기되고, 고유 임베딩 유사도가 임계값을 초과하는 동일 유형 패턴은 병합된다. 이를 통해 저장소 크기가 폭증하지 않으며, 최신·유용한 패턴이 우선적으로 검색된다.
실험 결과는 세 가지 베치마크에서 일관된 개선을 보여준다. ALFWorld에서는 98.4 %의 성공률과 73 % 단계 감소, ScienceWorld에서는 70.4 % 성공률과 20 % 단계 감소, TravelPlanner에서는 27.1 % 성공률을 기록했으며, 특히 TravelPlanner에서 수동 설계된 ATLAS(12.1 %)를 두 배 이상 능가했다. Ablation 연구는 서브에이전트 제거 시 성능이 가장 크게 떨어지고, 유지·배치 추출을 제외하면 저장소가 4.5배 팽창하고 활용도가 8.9배 감소함을 확인했다.
이러한 설계는 LLM 에이전트가 인간처럼 경험을 구조화·정제하고, 장기적인 지식 축적과 재사용을 가능하게 하는 중요한 전진을 제시한다. 특히 절차적 서브태스크를 독립적인 서브에이전트로 전환하는 아이디어는 복잡한 도메인(예: 여행 계획, 로봇 조작)에서의 확장성을 크게 높인다.
댓글 및 학술 토론
Loading comments...
의견 남기기