작은 언어 모델을 위한 효율적인 에이전트 프레임워크

작은 언어 모델을 위한 효율적인 에이전트 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

effGen은 소형 언어 모델(SLM)을 최적화한 오픈소스 에이전트 프레임워크로, 프롬프트 압축, 복잡도 기반 라우팅, 지능형 작업 분해, 통합 메모리 시스템을 제공한다. 13개 벤치마크에서 기존 LangChain·AutoGen·Smolagents보다 높은 성공률과 빠른 실행 속도를 달성한다.

상세 분석

effGen은 소형 언어 모델의 제한인 짧은 컨텍스트와 낮은 추론 깊이를 고려해 네 가지 핵심 모듈을 설계했다. 첫 번째 모듈인 프롬프트 최적화는 압축, 문장 분할, 중복 제거, 불릿 포맷 변환, 트렁케이션을 순차적으로 적용해 원본 길이의 20~30%로 축소한다. 모델 크기에 따라 압축 비율과 샷 수를 동적으로 조정함으로써 Tiny 모델은 60% 압축, Medium 모델은 80% 압축을 달성한다. 두 번째 모듈은 복잡도 분석기로, 작업 길이, 요구사항 수, 도메인 폭, 도구 요구, 추론 깊이 다섯 가지 요인을 가중합해 0‑10 점의 스코어를 산출한다. 이 스코어가 사전 정의된 임계값(τ≈7) 이상이면 다중 에이전트 실행으로 라우팅하고, 의존성이 있으면 순차적, 없으면 병렬적으로 분해한다. 세 번째 모듈인 작업 분해는 의존 그래프를 생성해 토폴로지 정렬 기반으로 실행 순서를 결정한다. 병렬 실행 시 독립 서브태스크를 동시에 처리해 전체 지연을 크게 줄이며, 순차 실행 시 이전 결과를 컨텍스트에 삽입해 연쇄적 추론을 지원한다. 마지막으로 통합 메모리 시스템은 단기 히스토리, 장기 에피소드 저장소, 벡터 기반 의미 검색을 3계층으로 구성한다. 짧은 컨텍스트 창을 초과하는 경우 벡터 검색을 통해 관련 정보를 재활용하고, 메모리 업데이트는 자동으로 수행된다. 실험에서는 Qwen2.5‑7B 모델을 사용해 13개 벤치마크에서 평균 정확도 63.07%를 기록했으며, 동일 모델에 비해 프롬프트 최적화만으로 8‑11% 향상, 복잡도 라우팅만으로 6‑11% 향상을 보였다. 두 기법을 결합하면 규모에 관계없이 일관된 성능 상승을 확인했으며, 특히 1.5B 모델에서는 최적화 효과가 11.2%로 가장 크게 나타났다. effGen은 또한 Model Context Protocol, Agent‑to‑Agent, Agent Communication Protocol을 하나의 인터페이스로 통합해 이기종 에이전트와의 상호 운용성을 제공한다. 전체 파이프라인은 Algorithm 1에 명시된 흐름대로 진행되며, 사용자는 pip install effgen만으로 로컬 환경에서 바로 실행할 수 있다. 이러한 설계는 토큰 비용 절감, 프라이버시 보호, 배포 효율성을 동시에 만족시키며, 소형 모델 기반 에이전트의 실용적 활용 가능성을 크게 확대한다.


댓글 및 학술 토론

Loading comments...

의견 남기기