실시간 진화형 메모리 시스템 LiveEvo 연속 피드백을 통한 에이전트 기억 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LiveEvo는 LLM 기반 에이전트가 경험을 저장·활용하는 메모리를 온라인 환경에서 지속적으로 진화시키는 프레임워크이다. 경험 은행과 메타‑가이드라인 은행을 분리해 “무엇이 일어났는가”와 “어떻게 활용할 것인가”를 각각 관리하고, 피드백을 통해 경험 가중치를 강화·감쇠함으로써 인간의 기억 강화·소멸 메커니즘을 모방한다. Prophet Arena 실시간 벤치마크에서 Brier 점수를 20.8 % 개선하고 시장 수익률을 12.9 % 상승시켰으며, 다른 딥‑리서치 벤치마크에서도 일관된 성능 향상을 보였다.

상세 분석

LiveEvo는 기존 정적 학습‑테스트 분할에 의존하는 자기‑진화 메모리 시스템과 달리, 진정한 온라인 학습 환경을 가정한다. 핵심 설계는 두 개의 독립적인 은행, 즉 Experience Bank(E)와 Meta‑Guideline Bank(M)으로 구성된다. E는 과거 상호작용을 구조화된 형태(질문‑경험 쌍, 행동‑결과 로그 등)로 저장하고, 각 경험마다 가중치 wₑ를 부여한다. M은 “경험을 어떻게 조합해 현재 과제에 적용할 것인가”에 대한 메타‑규칙을 보관한다.

에이전트는 매 과제마다 네 단계 루프를 수행한다. ① Retrieve 단계에서 과제 q에 대해 자동 생성된 검색 쿼리를 이용해 다중 차원(질문‑유사도, 내용‑유사도 등)으로 E와 M을 탐색한다. 점수는 Sₖₒᵣₑ = wₑ·Sim(exp, q) 로 계산돼, 가중치가 높은 경험이 우선 선택된다. ② Compile 단계에서는 선택된 경험 집합 E_q와 메타‑가이드라인 ˆm을 입력으로 LLM이 과제‑특화 가이드라인 g를 생성한다. 여기서 메타‑가이드라인은 경험을 일반화·추상화하는 방법을 제시하며, 과거 경험을 현재 상황에 맞게 변형한다. ③ Act 단계에서는 가이드라인 g를 조건으로 두 번의 추론을 수행한다. 하나는 메모리를 활용한 버전, 다른 하나는 메모리 없이 수행한 베이스라인 버전이다. 두 결과 r_on과 r_off의 차이를 통해 메모리 활용의 실제 기여도를 측정한다(ContrastiveEval). ④ Update 단계에서는 r_on−r_off 값을 이용해 E_q에 포함된 각 경험의 가중치를 강화하거나 감소시킨다. 가이드라인이 성능을 저하시키면 새로운 메타‑가이드라인을 생성해 M에 추가한다. 또한, 전체 배치 중 성능이 최하위 ρ(예: 30 %)에 해당하는 과제에 대해, 메모리‑온 트래젝터리를 요약·재평가하여 실제 개선이 확인되면 새로운 경험을 E에 기록한다. 이 과정은 경험의 선택적 기록(selective write‑back)과 메모리 성장 억제를 동시에 달성한다.

Human memory와의 유사성을 강조한 강화‑감쇠 메커니즘은 장기적인 비정상적 분포 변화에 강인함을 제공한다. 실험에서는 Prophet Arena라는 실시간 금융 예측 벤치마크(10주, 500 과제)에서 LiveEvo가 Brier 점수를 20.8 % 낮추고, 시장 수익률을 12.9 % 향상시켰다. 또한, Xbench‑DeepResearch와 같은 전통적인 딥‑리서치 벤치마크에서도 기존 최첨단 방법들을 앞섰으며, 각 구성 요소(경험 가중치 업데이트, 메타‑가이드라인, 대비 평가)의 제거 실험에서 성능 저하가 관찰돼 제안된 설계가 필수적임을 입증한다.

요약하면, LiveEvo는 (1) 경험과 활용 전략을 명확히 분리, (2) 피드백 기반 가중치 조정으로 기억을 동적으로 강화·소멸, (3) 메타‑가이드라인을 통해 경험을 과제에 맞게 재구성, (4) 대비 평가를 통한 메모리 효과 측정 및 자동 반영이라는 네 가지 핵심 메커니즘을 결합해, 진정한 온라인 환경에서 LLM 에이전트가 지속적으로 학습·진화하도록 만든다.

실시간 진화형 메모리 시스템 LiveEvo 연속 피드백을 통한 에이전트 기억 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기