자기진화 LLM 에이전트, 경험 활용의 신뢰성 격차
초록
본 논문은 자기진화 LLM 에이전트가 과거 경험을 얼마나 신뢰성 있게 활용하는지를 체계적으로 조사한다. 원시 경험(raw experience)과 압축 경험(condensed experience)에 대해 다양한 인과적 개입을 수행하고, 10가지 LLM 백본·9개 환경·4가지 프레임워크를 아우르는 실험을 통해 원시 경험은 행동에 강하게 영향을 미치지만, 압축 경험은 거의 무시되거나 오해되는 현상을 발견한다. 이는 압축 경험의 의미적 한계, 내부 처리 편향, 사전 지식의 우월성 등 세 가지 요인으로 설명된다.
상세 분석
이 연구는 자기진화 LLM 에이전트가 “경험”을 어떻게 이용하는지를 ‘경험 신뢰성(experience faithfulness)’이라는 개념으로 정의하고, 이를 검증하기 위해 인과적 개입(causal intervention) 방식을 도입했다. 원시 경험은 성공적인 행동 궤적을 그대로 제공하고, 압축 경험은 요약·휴리스틱 형태로 제공한다. 논문은 네 가지 대표 프레임워크(오프라인 ExpeL, 온라인 Dynamic CheatSheet, ReasoningBank, 멀티에이전트 G‑Memory)를 선택하고, GPT‑4o, Gemini‑2.5‑Flash, Qwen3 시리즈 등 10개의 모델을 실험에 투입했다. 각 모델·프레임워크·환경에 대해 ‘Empty’, ‘Shuffle’, ‘Irrelevant’, ‘Corrupt’, ‘Filler’ 등 7가지 개입을 적용해 원시·압축 경험을 각각 교란하였다.
실험 결과는 일관되게 두 가지 핵심 패턴을 보인다. 첫째, 원시 경험을 제거하거나 순서를 뒤섞는 등 교란하면 성공률이 크게 감소한다. 이는 에이전트가 구체적인 행동 순서와 상황 정보를 직접 활용한다는 강력한 증거다. 둘째, 압축 경험을 비우거나 무작위로 변형해도 성능 변화가 미미하거나 거의 없으며, 압축 경험을 완전히 삭제해도 성능 저하가 제한적이다. 즉, 현재 설계된 에이전트는 압축된 요약 정보를 거의 사용하지 않거나, 내부 처리 과정에서 이를 억제한다는 의미다.
이러한 비대칭성은 단일·멀티 에이전트 설정, 작은 모델부터 대규모 MoE까지 전반에 걸쳐 나타났으며, 특히 지식‑집중형 베치마크(예: GPQA‑Diamond, MMLU‑Pro)에서는 사전 학습된 언어 모델의 내재 지식이 충분히 강해 압축 경험의 기여도가 더욱 낮아졌다.
저자들은 원인으로 세 가지를 제시한다. 첫째, 압축 경험 자체가 “추상적·범용적”이라 구체적 행동 지시가 부족해 실제 의사결정에 활용되기 어렵다. 둘째, LLM 내부의 컨텍스트 윈도우와 프롬프트 처리 메커니즘이 최신 대화 흐름을 우선시하고, 외부 삽입된 요약을 억제하는 편향을 가지고 있다. 셋째, 특정 과제에서는 사전 지식이 충분히 강력해 외부 경험을 활용할 인센티브가 사라진다.
이 논문은 경험 활용의 신뢰성을 평가하는 체계적 프레임워크와, 현재 자기진화 에이전트 설계가 압축 경험을 효과적으로 통합하지 못한다는 중요한 경고를 제공한다. 향후 연구는 압축 경험의 의미론적 풍부화, 내부 어텐션 조정, 혹은 경험 기반 보상 메커니즘 도입 등을 통해 신뢰성을 높이는 방향으로 진행될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기