메타클로우 지속적 학습 에이전트

본 논문은 실제 서비스 환경에서 LLM 기반 에이전트가 지속적으로 진화할 수 있도록 설계된 MetaClaw 프레임워크를 제안한다. 기존 연구는 메모리 기반(원시 트래젝터리 저장·재사용), 스킬 기반(정적 행동 지시문 저장), 강화학습 기반(오프라인 파라미터 업데이트) 중 하나에만 초점을 맞추어, 비정형·비동기적인 실시간 서비스와의 접목에 한계를 보였다. MetaClaw은 이러한 세 축을 동시에 다루며, 두 가지 상보적 적응 메커니즘을 도입한다. 1. **스킬‑구동 빠른 적응** - 에이전트가 작업을 수행하면서 발생한 실패 트래젝터리를 실시간으로 수집한다. - LLM 진화기(evolver)가 이 트래젝터리를 분석해 “행동 지시문” 형태의 스킬을 자동 생성한다. - 생성된 스킬은 시스템 프롬프트에 삽입돼 즉시 적용되며, 모델 파라미터를 건드리지 않으므로 서비스 중단이 전혀 없다. - 스킬은 메타 파라미터 S에 누적되며, Retrieve 함수를 통해 현재 작업에 가장 적합한 서브셋을 선택한다. 2. **기회‑적 정책 최적화** - OMLS가 수면 시간, 시스템 비활동, 캘린더 일정 등 세 가지 idle 신호를 모니터링한다. - 사용자가 비활동인 구간에만 클라우드 LoRA 파인튜닝과 프로세스 보상 모델(PRM)을 이용한 RL 업데이트를 실행한다. - 정책 업데이트는 “쿼리 데이터”(스킬 적용 후 수집된 트래젝터리)만을 사용하도록 버전 스탬프 기반 데이터 분리를 적용한다. - 지원 데이터는 즉시 버퍼에서 삭제돼, 오래된 보상이 정책을 오염시키는 현상을 방지한다. 두 메커니즘은 서로를 강화한다. 향상된 정책은 더 다양한 실패를 만들어 스킬 진화를 촉진하고, 새 스킬은 에이전트가 더 높은 보상을 얻는 행동을 수행하게 하여 RL에 유리한 데이터 풀을 만든다. 또한, 스킬 라이브러리와 정책 파라미터를 독립적으로 버전 관리함으로써, 언제든지 특정 버전으로 롤백하거나 실험적 변화를 격리할 수 있다. **아키텍처** MetaClaw은 프록시 기반 설계로, 대형 LLM을 로컬 GPU 없이도 클라우드 API 호출을 통해 사용한다. 스킬 라이브러리는 텍스트 형태로 저장되며, 정책 파라미터는 LoRA 어댑터 형태로 경량화된 가중치를 클라우드에서 업데이트한다. 이 구조는 비용 효율성을 높이고, 다양한 LLM 제공업체(OpenAI, Anthropic, Claude 등)와의 호환성을 확보한다. **실험** - **MetaClaw‑Bench**: 44개의 시뮬레이션 워크로드와 934개의 질문으로 구성된 벤치마크. 스킬‑구동 적응만으로 정확도가 최대 32 % 상대 향상. 전체 파이프라인 적용 시 Kimi‑K2.5 모델이 21.4 % → 40.6 % 로 상승, GPT‑5.2(41.1 %)와 근접. 엔드‑투‑엔드 작업 완료율 8.25배, 파일 검증 성공률 185 % 향상. - **AutoResearchClaw**: 23단계 자동 연구 파이프라인. 스킬 삽입만으로 복합 견고성 점수가 18.3 % 상승, 다양한 연구 도메인(데이터 수집, 모델 학습, 결과 분석)에서 일반화 효과 확인. **기여** 1. 스킬‑구동 빠른 적응과 기회‑적 정책 최적화를 결합한 연속 메타‑학습 프레임워크 제시. 2. 지원‑쿼리 데이터 분리를 위한 스킬 버전 스탬프 메커니즘 설계. 3. 사용자 비활동을 활용한 무중단 정책 업데이트 스케줄러(OMLS) 구현. 4. 대규모 실세계 벤치마크와 자동 연구 파이프라인을 통한 포괄적 평가. MetaClaw은 서비스 중단 없이 LLM 에이전트가 지속적으로 학습·진화할 수 있는 실용적인 솔루션을 제공한다는 점에서, 차세대 AI 어시스턴트 플랫폼에 중요한 전환점을 제시한다.

메타클로우 지속적 학습 에이전트

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기