스킬 라이브러리를 활용한 강화학습 기반 자기 진화 에이전트 SAGE

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Reinforcement Learning for Self-Improving Agent with Skill Library
  • ArXiv ID: 2512.17102
  • 발행일: 2025-12-18
  • 저자: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

📝 초록 (Abstract)

대형 언어 모델(LLM) 기반 에이전트는 복잡한 추론과 다중 턴 상호작용에서 뛰어난 능력을 보여주지만, 새로운 환경에 배치될 때 지속적으로 개선하고 적응하는 데 한계가 있다. 이를 해결하기 위한 한 가지 유망한 접근법은 에이전트가 새로운 스킬을 학습·검증·활용할 수 있도록 하는 스킬 라이브러리를 구현하는 것이다. 그러나 기존 스킬 라이브러리 방식은 주로 LLM 프롬프트에 의존해 일관된 구현이 어렵다. 이러한 문제를 극복하고자 우리는 스킬 라이브러리를 통한 자기 개선 능력을 강화하는 강화학습(RL) 기반 접근법을 제안한다. 구체적으로, 우리는 스킬을 학습에 체계적으로 통합하는 새로운 RL 프레임워크인 Skill Augmented GRPO for self‑Evolution (SAGE)를 소개한다. 프레임워크의 핵심 구성요소인 Sequential Rollout은 각 롤아웃마다 유사한 작업 체인을 순차적으로 에이전트에게 배치한다. 에이전트가 작업 체인을 진행하면서 이전 작업에서 생성된 스킬이 라이브러리에 누적되고, 이후 작업에서 활용될 수 있다. 또한, 원래의 결과 기반 보상에 보완적으로 스킬 통합 보상(Skill‑integrated Reward)을 도입해 스킬 생성 및 활용을 촉진한다. AppWorld에서 수행한 실험 결과, 전문가 경험을 갖춘 지도‑미세조정 모델에 SAGE를 적용했을 때 시나리오 목표 달성률이 8.9% 상승하고, 상호작용 단계는 26% 감소하며, 생성 토큰 수는 59% 감소하는 등 정확도와 효율성 모두에서 기존 방법을 크게 능가한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 LLM 기반 에이전트가 실제 서비스 환경에 투입될 때 마주하는 “지속적 자기 개선” 문제를 강화학습(RL)과 스킬 라이브러리라는 두 축을 결합해 해결하고자 한다. 기존 연구들은 주로 프롬프트 엔지니어링이나 사전 정의된 함수 호출을 통해 스킬을 관리했으며, 이는 스킬의 일관성·재사용성을 보장하기 어렵고, 새로운 도메인에 적용할 때마다 복잡한 수작업이 필요했다. SAGE는 이러한 한계를 인식하고, 스킬을 “동적으로 생성·축적·재활용”할 수 있는 메커니즘을 RL 루프에 내재시킨다.

핵심 아이디어인 Sequential Rollout은 에이전트를 유사한 작업들로 구성된 체인에 순차적으로 배치한다. 첫 번째 작업에서 에이전트가 문제 해결 과정 중에 만든 스킬은 즉시 라이브러리에 저장되고, 다음 작업에서는 이 스킬을 프롬프트나 행동 선택에 활용한다. 이렇게 하면 에이전트는 이전 경험을 직접적인 정책 파라미터가 아닌 “외부 지식” 형태로 보존하게 되며, 정책 자체는 보다 일반화된 형태를 유지한다. 이는 메타‑러닝과 유사한 효과를 제공하면서도, 스킬 자체가 인간이 이해 가능한 형태(예: 함수, API 호출, 템플릿)로 남아 있어 디버깅과 검증이 용이하다.

또한 Skill‑integrated Reward는 기존의 목표 달성 보상에 스킬 생성·활용 정도를 추가로 보상한다. 즉, 같은 목표를 달성했더라도 더 적은 토큰·스텝으로 해결하고, 새로운 스킬을 성공적으로 라이브러리에 추가한 경우 추가 보상을 받는다. 이는 에이전트가 “효율적인 스킬 사용”을 학습하도록 유도하며, 실험 결과에서도 토큰 사용량이 크게 감소한 점에서 그 효과가 입증된다.

실험 환경인 AppWorld는 실제 모바일 앱 사용 시나리오를 시뮬레이션한 복합 작업 집합이다. 여기서 SAGE는 사전 학습된 지도‑미세조정 모델에 적용되었으며, 전문가 경험(Expert Experience)이라는 추가 데이터로 초기 정책을 강화하였다. 결과는 세 가지 측면에서 기존 최첨단 방법을 앞섰다. 첫째, Scenario Goal Completion이 8.9% 상승해 목표 달성 정확도가 크게 향상되었다. 둘째, 평균 인터랙션 스텝이 26% 감소해 에이전트가 더 빠르게 결정을 내렸다. 셋째, 생성 토큰 수가 59% 절감돼 연산 비용과 응답 지연이 크게 낮아졌다.

이러한 성과는 스킬 라이브러리와 RL이 상호 보완적으로 작동할 때, 에이전트가 “학습‑적용‑재학습”의 순환을 효율적으로 수행할 수 있음을 시사한다. 다만 현재 구현은 작업 간 유사성이 높은 경우에 최적화되어 있어, 전혀 다른 도메인 간 전이에는 추가 연구가 필요하다. 또한 스킬 검증 메커니즘이 비교적 단순해, 잘못된 스킬이 라이브러리에 남을 위험이 존재한다. 향후 연구에서는 스킬의 자동 검증·버전 관리·삭제 정책을 강화하고, 멀티‑에이전트 협업 시나리오에 적용해 스킬 공유와 경쟁 메커니즘을 탐색할 여지가 있다.

📄 논문 본문 발췌 (Translation)

제목 없음

초록
대형 언어 모델(LLM) 기반 에이전트는 복잡한 추론과 다중 턴 상호작용에서 뛰어난 능력을 보여주지만, 새로운 환경에 배치될 때 지속적으로 개선하고 적응하는 데 한계가 있다. 이를 해결하기 위한 한 가지 유망한 접근법은 에이전트가 새로운 스킬을 학습·검증·활용할 수 있도록 하는 스킬 라이브러리를 구현하는 것이다. 그러나 기존 스킬 라이브러리 방식은 주로 LLM 프롬프트에 의존해 일관된 구현이 어렵다. 이러한 문제를 극복하고자 우리는 스킬 라이브러리를 통한 자기 개선 능력을 강화하는 강화학습(RL) 기반 접근법을 제안한다. 구체적으로, 우리는 스킬을 학습에 체계적으로 통합하는 새로운 RL 프레임워크인 Skill Augmented GRPO for self‑Evolution (SAGE)를 소개한다. 프레임워크의 핵심 구성요소인 Sequential Rollout은 각 롤아웃마다 유사한 작업 체인을 순차적으로 에이전트에게 배치한다. 에이전트가 작업 체인을 진행하면서 이전 작업에서 생성된 스킬이 라이브러리에 누적되고, 이후 작업에서 활용될 수 있다. 또한, 원래의 결과 기반 보상에 보완적으로 스킬 통합 보상(Skill‑integrated Reward)을 도입해 스킬 생성 및 활용을 촉진한다. AppWorld에서 수행한 실험 결과, 전문가 경험을 갖춘 지도‑미세조정 모델에 SAGE를 적용했을 때 시나리오 목표 달성률이 8.9% 상승하고, 상호작용 단계는 26% 감소하며, 생성 토큰 수는 59% 감소하는 등 정확도와 효율성 모두에서 기존 방법을 크게 능가한다.

본 논문은 LLM 기반 에이전트가 실제 서비스 환경에 투입될 때 마주하는 “지속적 자기 개선” 문제를 강화학습(RL)과 스킬 라이브러리라는 두 축을 결합해 해결하고자 한다. 기존 연구들은 주로 프롬프트 엔지니어링이나 사전 정의된 함수 호출을 통해 스킬을 관리했으며, 이는 스킬의 일관성·재사용성을 보장하기 어렵고, 새로운 도메인에 적용할 때마다 복잡한 수작업이 필요했다. SAGE는 이러한 한계를 인식하고, 스킬을 “동적으로 생성·축적·재활용”할 수 있는 메커니즘을 RL 루프에 내재시킨다.

핵심 아이디어인 Sequential Rollout은 에이전트를 유사한 작업들로 구성된 체인에 순차적으로 배치한다. 첫 번째 작업에서 에이전트가 문제 해결 과정 중에 만든 스킬은 즉시 라이브러리에 저장되고, 다음 작업에서는 이 스킬을 프롬프트나 행동 선택에 활용한다. 이렇게 하면 에이전트는 이전 경험을 직접적인 정책 파라미터가 아닌 “외부 지식” 형태로 보존하게 되며, 정책 자체는 보다 일반화된 형태를 유지한다. 이는 메타‑러닝과 유사한 효과를 제공하면서도, 스킬 자체가 인간이 이해 가능한 형태(예: 함수, API 호출, 템플릿)로 남아 있어 디버깅과 검증이 용이하다.

또한 Skill‑integrated Reward는 기존의 목표 달성 보상에 스킬 생성·활용 정도를 추가로 보상한다. 즉, 같은 목표를 달성했더라도 더 적은 토큰·스텝으로 해결하고, 새로운 스킬을 성공적으로 라이브러리에 추가한 경우 추가 보상을 받는다. 이는 에이전트가 “효율적인 스킬 사용”을 학습하도록 유도하며, 실험 결과에서도 토큰 사용량이 크게 감소한 점에서 그 효과가 입증된다.

실험 환경인 AppWorld는 실제 모바일 앱 사용 시나리오를 시뮬레이션한 복합 작업 집합이다. 여기서 SAGE는 사전 학습된 지도‑미세조정 모델에 적용되었으며, 전문가 경험(Expert Experience)이라는 추가 데이터로 초기 정책을 강화하였다. 결과는 세 가지 측면에서 기존 최첨단 방법을 앞섰다. 첫째, Scenario Goal Completion이 8.9% 상승해 목표 달성 정확도가 크게 향상되었다. 둘째, 평균 인터랙션 스텝이 26% 감소해 에이전트가 더 빠르게 결정을 내렸다. 셋째, 생성 토큰 수가 59% 절감돼 연산 비용과 응답 지연이 크게 낮아졌다.

이러한 성과는 스킬 라이브러리와 RL이 상호 보완적으로 작동할 때, 에이전트가 “학습‑적용‑재학습”의 순환을 효율적으로 수행할 수 있음을 시사한다. 다만 현재 구현은 작업 간 유사성이 높은 경우에 최적화되어 있어, 전혀 다른 도메인 간 전이에는 추가 연구가 필요하다. 또한 스킬 검증 메커니즘이 비교적 단순해, 잘못된 스킬이 라이브러리에 남을 위험이 존재한다. 향후 연구에서는 스킬의 자동 검증·버전 관리·삭제 정책을 강화하고, 멀티‑에이전트 협업 시나리오에 적용해 스킬 공유와 경쟁 메커니즘을 탐색할 여지가 있다.

📸 추가 이미지 갤러리

appendix_a1.png appendix_a2.png emoji.png eval.png example_grpo.png example_sage.png example_sage_75.png example_sft.png example_slagent.png intro.png model_comparison_chart.png model_comparison_chart_ablation.png model_comparison_chart_new.png model_comparison_chart_old.png prompt.png scenario_wise_rollout.png train.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키