- Title: Jenius Agent Towards Experience-Driven Accuracy Optimization in Real-World Scenarios
- ArXiv ID: 2601.01857
- 발행일: 2026-01-05
- 저자: Defei Xia, Bingfeng Pi, Shenbin Zhang, Song Hua, Yunfei Wei, Lei Zuo
📝 초록
대형 언어 모델(LLMs)의 능력이 증가함에 따라, LLM 기반 자율 에이전트는 AI 응용 분야에서 새로운 패러다임을 제공한다. 이러한 에이전트들은 지시를 이해하고 도구를 호출하며 추론과 계획을 수행하고 복잡한 작업을 처리할 수 있다. 그러나 현재의 지능형 에이전트 시스템은 일반성, 안정성 및 관리 가능성에 대한 여러 문제점을 가지고 있으며, 특히 많은 작업 상황에서 태스크 정밀도, 응답 신뢰성 및 시스템 안정성이 취약하다.
현재 대부분의 에이전트 시스템은 고정된 프롬프트와 사전 정의된 도구 사용 워크플로에 의존하여 작업 의도를 이해하거나 동적으로 도구를 선택하고 컨텍스트를 효과적으로 관리하는 능력이 제한적이다. 이 연구에서는 자율 에이전트의 기본 실행 과정을 시작으로, 위 문제들을 해결하기 위한 세 가지 보완적인 최적화 모듈을 소개한다.
작업 이해와 프롬프트 최적화: 구조화된 의도 인식과 정교한 시스템 프롬프트 및 템플릿을 통합하여 지시를 현재 상태와 목표에 맞게 조정하여 잘못된 해석을 줄이고 작업 일치성을 안정화한다.
도구 검색: 동적 검색과 적응적인 도구 접근을 사용하여 사용자 의도를 컨텍스트 관련 도구와 매칭하고 불명확한 사용자 요청을 처리한다.
계층형 메모리 관리: 중복 대화 기록을 제거하여 토큰 길이를 제어하고 중요한 의미를 유지하며 장기 상호작용에서 추론을 안정화한다.
이 연구에서는 Jenius-Agent라는 통합 프레임워크를 구축하여 작업 정확도, 효율성 및 컨텍스트 강건성을 향상시킨다. 이 프레임워크는 적응적인 프롬프트 생성, 컨텍스트 인식 도구 조정 및 계층형 메모리 관리를 통합한다.
💡 논문 해설
#### 1. 주요 기여: 모듈 최적화 프레임워크
간단한 설명: Jenius-Agent는 자율 에이전트의 기본 실행 과정을 개선하기 위한 세 가지 핵심 모듈을 통합하는 새로운 접근 방식을 제시한다. 이 모듈들은 적응적인 프롬프트 생성, 도구 검색 및 메모리 관리를 통해 에이전트가 더 정확하고 안정적으로 작업을 수행할 수 있게 돕는다.
비유: 이것은 자동차의 엔진처럼 작용하며 각 모듈은 엔진의 부품과 같다. 적응적인 프롬프트 생성은 연료 공급 시스템, 도구 검색은 변속기, 메모리 관리는 기어와 함께 작용하여 에이전트가 최적 상태로 작업할 수 있도록 돕는다.
2. 작업 구현의 안정성 개선
간단한 설명: Jenius-Agent는 사용자의 의도를 정확하게 이해하고 적절한 도구를 선택하며, 이 과정에서 발생할 수 있는 오류에 대한 방어 전략을 강화하여 에이전트가 더 안정적으로 작업을 수행하도록 돕는다.
비유: 이것은 요리사가 레시피를 정확히 이해하고 필요한 재료와 도구를 선택하며, 잘못된 조리 과정에 대비해 안전 장치를 갖추는 것과 같다. 이런 방식으로 요리사는 더 안정적으로 요리를 완성할 수 있다.
3. 종합적인 평가 프레임워크
간단한 설명: Jenius-Agent의 성능을 평가하기 위해 절차적, 의미적 및 효율성 차원을 모두 포함하는 종합적인 평가 프레임워크를 설계했다.
비유: 이것은 스포츠 선수의 능력을 평가하기 위한 다양한 테스트와 같다. 절차적 평가는 기술, 의미적 평가는 전략, 효율성 평가는 체력과 같은 요소들을 모두 포함한다.
📄 논문 발췌 (ArXiv Source)
# 서론
대형 언어 모델(LLMs)의 능력이 증가함에 따라, LLM 기반 자율 에이전트는 AI 응용 분야에서 새로운 패러다임을 제공한다. 이러한 에이전트들은 지시를 이해하고 도구를 호출하며 추론과 계획을 수행하고 복잡한 작업을 처리할 수 있으며, 연구 보조원, 프로세스 자동화, 검색 증강 생성, 코드 생성 및 디버깅 등 다양한 분야에서 널리 사용되고 있다. 현재의 지능형 에이전트 시스템(AutoGPT, LangChain Agents, BabyAGI)은 형태를 갖추기 시작했지만, 일반성, 안정성 및 관리 가능성에 대한 여러 문제점을 가지고 있으며, 특히 많은 작업 상황에서 태스크 정밀도, 응답 신뢰성 및 시스템 안정성이 취약하다.
현재 대부분의 에이전트 시스템은 고정된 프롬프트와 사전 정의된 도구 사용 워크플로에 의존하여 작업 의도를 이해하거나 동적으로 도구를 선택하고 컨텍스트를 효과적으로 관리하는 능력이 제한적이다. 여러 연구 결과, 동적인 프롬프트, 도구 검색 및 메모리 관리는 에이전트 실행을 최적화하는 데 핵심 역할을 한다는 것이 입증되었다. 예를 들어 MCP-Zero는 미지의 작업에 대한 활성 도구 탐지를 가능하게 하고, 다중 에이전트 설계는 최적화된 프롬프트와 협업 전략을 통해 계획과 조정을 강화한다. 모델 컨텍스트 프로토콜(MCP)은 시스템 간에 신뢰할 수 있는 도구 호출을 보장하기 위해 컨텍스트 교환을 표준화한다. 이러한 진전들은 견고한 프롬프팅, 지능적인 도구 접근 및 효과적인 메모리가 고급 에이전트 실행에 필수적임을 강조한다.
최근의 진보에도 불구하고 자율 에이전트 파이프라인은 여전히 세 가지 주요 문제를 안고 있다. 첫째, 고정된 프롬프트나 일반적인 프롬프트는 사용자의 의도를 잘못 해석하고 변화하는 작업 상태에 적응하지 못하여 불안정한 행동과 일관되지 않은 출력을 초래한다. 둘째, 정적 도구 목록이나 수작업 규칙은 모호성 또는 다양한 도메인에서 올바른 도구를 선택할 수 없어 불필요하거나 잘못된 호출이 발생한다. 마지막으로, 장기 대화는 중복 컨텍스트를 축적하여 토큰 비용을 증가시키고 중요한 신호를 희석시켜 추론의 질을 약화시킨다.
본 연구에서는 자율 에이전트의 기본 실행 과정에서 시작해 위 문제들을 해결하기 위한 세 가지 보완적인 최적화 모듈을 소개한다:
작업 이해와 프롬프트 최적화: 구조화된 의도 인식과 정교한 시스템 프롬프트 및 템플릿을 통합하여 지시를 현재 상태와 목표에 맞게 조정하여 잘못된 해석을 줄이고 작업 일치성을 안정화한다.
도구 검색: 동적 검색과 적응적인 도구 접근을 사용하여 사용자 의도를 컨텍스트 관련 도구와 매칭하고 불명확한 사용자 요청을 처리한다.
계층형 메모리 관리: 중복 대화 기록을 제거하여 토큰 길이를 제어하고 중요한 의미를 유지하며 장기 상호작용에서 추론을 안정화한다.
각 모듈들을 고립되어 평가하는 것이 아니라, 본 논문에서는 Jenius-Agent라는 통합 프레임워크를 구축하여 작업 정확도, 효율성 및 컨텍스트 강건성을 향상시키며, 출현하고 있는 에이전트 통신 프로토콜(MCP, ACP, A2A)과 일치시킨다.
주요 기여는 다음과 같다:
우리는 적응적인 프롬프팅, 컨텍스트 인식 도구 조정 및 계층형 메모리 관리를 통합하는 모듈 최적화 프레임워크를 제안하여 컨텍스트 노이즈, 도구 오용 및 해롭게 작동하는 프롬프트를 완화한다.
우리는 적응적인 프롬프트 생성과 컨텍스트 인식 도구 사용을 통해 작업 근거와 실행의 안정성을 향상시켰으며, 악성 또는 잘못된 입력에 대한 시스템의 내구성을 강화하기 위해 초보적인 방어 전략을 소개한다.
우리는 절차적, 의미적 및 효율성 차원을 포괄하는 종합적인 평가 프레임워크를 설계했다.
또한 공개 및 실제 데이터셋에서 광범위한 실험을 수행하여 작업 정확도, 응답 품질, 토큰 효율성을 지속적으로 개선함을 보여주었다.
표준적인 ReAct 스타일의 자율 에이전트 워크플로.
관련 작업
LLMs의 급속한 발전에 따라, 에이전트 시스템에 대한 연구는 여러 방향으로 확장되고 있다. 표준적인 ReAct 스타일의 자율 에이전트 워크플로는 그림 1에서 보듯이 추론, 행동 및 피드백 사이클을 반복한다. 이 패러다임에서는 LLM은 더 이상 수동적인 텍스트 생성자가 아니라 중심 계획자 역할을 한다. 이러한 순환적 계획-도구-환경 상호 작용은 세 가지 최적화 포커스를 강조한다: (i) 신뢰할 수 있는 추론을 위한 프롬프트 최적화, (ii) 정밀한 외부 상호 작용을 위한 도구 선택, (iii) 컨텍스트 유지 및 토큰 사용 제한을 위한 메모리 관리.
프롬프트 엔지니어링 및 최적화
DSPy는 프롬프트 컴파일을 위한 모듈형 프레임워크를 제공하여 명확성과 디버깅 가능성 개선에 기여하고, LLMs의 프롬프트 엔지니어링은 실용적인 설계 원칙을 요약한다. Reflect-Retry-Reward는 자반성과 강화 학습을 통해 적응적 최적화를 소개한다. 그러나 현재 접근법들은 도구 기반이나 장기 상호 작용에서 여전히 신뢰성이 부족하며, 종종 정적 템플릿에 의존하고 체계적인 평가가 부족하며 구조화된 출력 또는 도구 호출 일관성을 제어하는 데 어려움을 겪는다.
도구 선택 및 호출
최근 MCP-Zero와 같은 노력은 의미 임베딩을 사용한 적응적 도구 발견을 탐색하고, BioMedTools는 정제된 도구 메타데이터를 통해 도메인 특정 조정을 보여준다. 그러나 이전 접근법들은 깨끗한 도구 설명과 고정 호출 형식을 가정하며 실제 시스템은 잡음 있는 메타데이터, 의미 불일치 및 처리되지 않은 런타임 오류로 인해 불안정한 도구 검색 및 매개변수 사용을 초래한다.
Jenius 에이전트 프레임워크. LLM은 중앙 조정자 역할을 하며, 적응적 프롬프트 생성, 도구 검색 및 메모리 관리를 통해 작업 실행을 조정하며 유연성과 효율성을 높인다.
메모리 관리
StateFlow와 ReAct는 상태 인식 및 추론 맞춤형 메모리 설계를 보여주며, Recursively Summarizing는 장기 일관성을 위한 계층적 압축을 소개한다. 현재 방법들은 간단한 윈도우 기반 자르기나 단계별 요약을 사용하며 중요한 초기 컨텍스트 또는 세부 도구 의존성 손실 위험을 안고 있으며 추론과 메모리 유지 사이의 긴밀한 통합이 부족하다.
방법
위의 제한점을 해결하기 위해, 우리는 피드백 기반 Jenius-agent (그림 2)를 제안한다. 이는 세 가지 조정된 최적화 모듈을 통합한다. 첫째, 적응적 프롬프트 생성은 역할 지시문, 작업 상태 및 사용자 컨텍스트를 결합하여 시스템 프롬프트를 생성한다. 둘째, 도구 검색은 다양한 출처에서 관련 도구를 선택한다. 셋째, 메모리 관리는 과거 상호 작용을 간결하고 의미적으로 풍부한 표현으로 요약한다.
LLM은 추론 트레이스와 함수 호출을 생성하며, 이는 도구 실행 모듈에 의해 수행되며 결과는 에이전트로 다시 피드백된다. 이러한 루프 아키텍처는 프롬프트 적응화, 도구 활용 및 메모리 압축의 지속적인 통합을 가능하게 하여 안정성과 작업 일치성을 향상시킨다.
다음 서브 섹션에서는 각 모듈의 설계, 동기 및 역할에 대해 자세히 설명한다.
적응적 프롬프트 생성
그림 3은 프롬프트 생성 파이프라인을 보여주며, 핵심 행동 제약 조건의 융합, 작업 주도형 지시문 확장 및 히스토리 인식 조정을 통해 적응적 프롬프트를 유도한다.
(1) 핵심 행동 제약 조건: 에이전트의 역할, 상호 작용 프로토콜, 응답 스타일 및 운영 한계를 정의하여 일관성 있고 안전하며 작업에 적합한 동작을 보장한다.
적응적 프롬프트 생성.
역할 지정 및 언어 정렬: 에이전트의 정체성을 정의하고 사용자의 입력과 응답 언어를 일치시켜 생성된 응답에서 의도하지 않은 다언어 혼합을 피한다;
의도 분류와 라우팅: 사용자 쿼리를 4개의 의미 범주로 분류한다. (i) 사회적 상호 작용(예: 인사, 소소한 대화), (ii) 창작 생성(예: 이야기 작성, 내용 초안 작성), (iii) 사전 지식을 통해 해결 가능한 쿼리, 그리고 (iv) 도구 증강 추론, 여기서는 단일 도구 호출 또는 다단계, 다중 도구 조정으로 세분화된다. 이 분류는 동적 프롬프트 생성기에게 의도 범주에 따라 역할 지시문, 추론 전략 및 출력 형식을 맞춤화하도록 허용하여 생성된 응답이 더 정확하고 컨텍스트 적합성이 강화된다;
제어 도구 호출 정책: 외부 도구 사용에 대한 엄격한 통제를 구현하여 사실적 정확성과 운영 신뢰성을 보장한다. 에이전트는 도구 자격 증명 및 매개변수 일관성을 검증하고 추측적인 또는 확인할 수 없는 요청을 거절한다. 이 메커니즘은 허위 엔티티(예: 날짜, 이름, 위치)의 환상, 중복 또는 순환 호출을 방지하며 신뢰성 기준에 부합하는 결정론적이고 감사 가능한 실행을 강제시킨다;
응답 구조화 프로토콜: 작업 의미학과 사용 가능성 요구 사항에 따라 구조화(예: 테이블, JSON, 코드) 또는 비구조화(자유 형식 텍스트) 출력 형식을 결정한다.
안전성 및 콘텐츠 규제: 하드 룰 기반 필터와 부드러운 모델 수준 규제를 결합한 다층 보호 장치를 설정한다. 이러한 제약 조건은 위험하거나 윤리적이지 않거나 개인 정보 침해가 발생하는 출력을 감지하고 차단하며 은유적 편견과 감정적 조작 표현도 억제한다. 규제 층은 모호한 프롬프트나 과대 일반화된 추론으로부터 생기는 환상적이거나 컨텍스트 적합성이 없는 내용을 추가로 억제한다.
(2) 런타임 프롬프트 적응: 이 구성 요소는 작업 의미, 도구 이용 가능성 및 상호 작용 컨텍스트를 기반으로 프롬프트를 동적으로 조정하여 출력이 사용자 의도와 일치하도록 보장한다. 세 가지 원칙을 따르며:
컨텍스트 인식 적응: 현재 쿼리, 작업 범주 및 운영 제약 조건(예: 도구 자격 증명, 안전 규칙)에 기반하여 적절한 추론 전략과 응답 형식을 안내한다.
도구 조정 가이드라인: 조건 부호는 올바른 호출 행동 및 중복, 무효 또는 환상적 호출의 억제를 지시하며 실행 신뢰성을 향상시킨다.
세부 의도 구분: 에이전트는 의미적으로 유사하지만 기능적으로 다른 작업(예: 텍스트 보고서 vs 슬라이드 보고서)을 구별하여 사용자의 의도에 충실하게 한다.
이 메커니즘들을 통합함으로써, 이 구성 요소는 정적 행동 제약 조건을 보완하며 작업 정확성을 높이고 오류 도구 사용을 줄이며 대화 턴 간의 일관성과 관련성을 유지한다.
(3) 히스토리 인식 적응: 원시 대화 로그에 의존하는 대신, 우리는 연관성 기반 압축 전략을 활용하여 로그를 필터링하고 주요 교차 턴 종속성을 유지하도록 한다. 결과적으로 생성된 히스토리는 요약되어 프롬프트에 부착되며 정밀하고 일관된 행동 계획을 가능하게 한다. 히스토리 필터링 세부 사항은 “계층형 메모리 관리” 섹션을 참조하십시오.
컨텍스트 인식 도구 조정
이 모듈은 동적으로 식별된 작업 의도에 따라 적절한 외부 도구를 선택하여 도구 접근 효율성을 높이는 것을 목표로 한다. 우리의 프레임워크는 구조화된 MCP 도구 관리 메커니즘을 설립하며, 사용 가능한 도구에 대한 체계적인 최적화, 확장성 및 제약 조건 강제를 가능하게 한다. 예를 들어, 기능 설명이 부족한 세 번째 당사자 MCP 도구는 해석력과 사용성을 향상시키기 위해 재포장되고 보강된다. 또한 도구들은 파일 관리, 정보 검색, 이미지 생성 및 데이터 분석 등 기능 범주별로 분류되어 조직화된 인덱싱을 지원하고 효율적이고 컨텍스트 인식적인 도구 발견을 가능하게 한다.
모든 도구는 Qwen3 임베딩 모델을 사용하여 고차원 임베딩으로 표현되며, 도구 선택은 의미 유사도 순위화 과정으로 정의된다. 쿼리와 각 도구 임베딩 간의 유사성이 개념적 근접성을 나타내며 순위를 매기고 후속 관련 필터링을 위한 기초가 된다.
단계 1: 상위 $`\boldsymbol{M}`$ 후보 검색.
후보 도구는 쿼리 임베딩과의 유사도에 따라 순위가 매겨진다. 가장 높은 유사도 값을 가진 상위 $`M`$ 도구들이 초기 후보 집합을 형성하고, 추가 정제를 위한 단축 목록이 된다.
단계 2: 변곡점 기반 필터링.
관련성을 결정하기 위한 의미 있는 임계값을 식별하기 위해 하이브리드 변곡점 감지 방법이 적용된다. 두 가지 보완적인 방법이 결합되며:
유사도 점프 접근법: 코사인 유사도 값에서 급격한 감소를 나타내는 포인트를 감지하여 관련 및 비관련 도구 사이의 전환을 표시한다.
Kneedle 알고리즘: 정규화된 누적 유사도 곡선과 대각선 간의 편차를 분석하며 최대 편차가 관계 도구 선택을 위한 임계값으로 선택된다.
단계 3: 동적 컷오프 및 최종 섹션
두 방법 모두 후에, 마지막으로 유지된 도구 수 $`N`$은 두 후보 크기 중 작은 값으로 설정된다:
MATH
\begin{equation}
N = \min(N_{\text{jump}}, N_{\text{kneedle}}),
\end{equation}
클릭하여 더 보기
여기서 $`N < M`$. 만약 $`N < 10`$이면 시스템은 가장 유사한 상위-10 도구를 선택하여 집합을 보충한다.
실제 상황에서의 경험적 관찰에 따르면, 너무 작은 $`N`$ 값은 후보 다양성을 제한하고, 과도하게 큰 $`N`$ 값은 의미적 노이즈와 중복 검색을 초래하므로, $`N=10`$이 정확성과 효율성 사이의 최적 균형점을 달성한다.
정제된 도구 집합은 LLM에 전달되며 벡터 기반 검색 및 변곡점 필터링은 함께 정확하고 효율적인 접근을 보장하면서 무관한 호출을 최소화하고 광범위한 작업 커버리지를 유지한다.
계층형 메모리 관리
다중 턴 대화에서의 컨텍스트 확장을 해결하기 위해 이 모듈은 세분화된 대화 수준 메시지 정렬과 포괄적인 세션 수준 요약을 통합하는 계층형 메모리 메커니즘을 채택한다.
(1) 대화 수준 메모리 정렬: 각 상호 작용 턴은 HumanMessages, AIMessages 및 선택적으로 ToolMessages로 구성되며 외부 도구가 호출되는 경우에 따라 다르다.