전략 경매로 작은 에이전트를 크게 확장한다
초록
본 논문은 작은 언어 모델 기반 에이전트가 복잡한 작업에서 성능이 급격히 떨어지는 현상을 실증하고, 프리랜서 시장에서 영감을 얻은 “전략 경매(Strategy Auctions for Workload Efficiency, SALE)” 프레임워크를 제안한다. 에이전트들은 짧은 전략 계획을 입찰하고, 비용‑가치 점수와 공유 메모리를 통해 최적 입찰자를 선정·정제함으로써, 대형 모델 의존도를 53 % 감소시키고 전체 비용을 35 % 절감하면서도 최고 성능을 유지한다.
상세 분석
논문은 먼저 Qwen‑3 시리즈(4B, 8B, 14B, 32B) 모델을 활용해 ‘깊은 탐색’과 ‘코딩’ 두 도메인에서 인간 솔루션 시간을 작업 복잡도 지표로 삼아 실험을 진행한다. 결과는 단순 작업에서는 작은 모델이 대형 모델의 87 % 수준의 pass@1을 달성하지만, 복잡도가 높아질수록 상대 성능이 21 %까지 급락한다는 점을 보여준다. 이는 기존 연구가 주로 짧은 QA에 초점을 맞춘 것과 달리, 장기적 추론·계획이 요구되는 실제 워크플로우에서 작은 에이전트의 한계를 명확히 드러낸다.
이러한 한계를 극복하기 위해 제안된 SALE는 전통적인 라우팅 방식과 차별화된다. 비예측적 라우팅은 모든 후보 모델을 완전 실행해야 하므로 토큰 비용이 폭증하고, 예측적 라우팅은 별도 라우팅 모델을 학습해야 하며 복잡한 작업에서 성능 저하가 보고된다. SALE는 각 에이전트가 ‘전략 계획(짧은 텍스트)’을 입찰하도록 하고, 비용‑가치 함수 C – V 를 최소화하는 입찰자를 provisional winner로 선정한다. 이후 입찰 메모리(과거 입찰·성공·실패 기록)를 활용해 저비용 에이전트가 전략을 재정제하도록 허용함으로써, 실제 실행 전에도 입찰 순위가 역전될 수 있다. 이 과정은 프리랜서 시장에서의 역량 향상 메커니즘과 유사하며, 테스트 시점에 지속적인 자기 개선(self‑improvement)을 가능하게 한다.
실험 결과, SALE는 가장 큰 32B 모델 대비 큰 모델 의존도를 53 % 줄이고, 전체 토큰 비용을 35 % 절감하면서도 deep‑search와 coding 모두에서 pass@1을 각각 +3.5 %·+2.7 % 향상시켰다. 특히, 입찰 메모리가 축적될수록 4B 모델이 선택되는 비율이 상승해, 작은 모델이 점진적으로 더 많은 작업을 담당하게 된다. 기존 라우터들은 복잡한 작업에서 성능이 떨어지거나 비용 절감 효과가 없었으며, 이는 작업 입력과 최종 성공 사이의 비선형 관계를 제대로 포착하지 못했기 때문이다.
이 논문은 작은 모델을 단순히 ‘대체’하려는 시도가 아니라, 시장‑기반 협업 메커니즘을 통해 이들의 효율성을 ‘스케일 업’하는 새로운 시스템‑레벨 패러다임을 제시한다. 또한, 비용‑가치 기반 입찰과 메모리‑드리븐 전략 정제가 라우팅과 학습을 통합하는 효율적인 방법임을 실증함으로써, 향후 에이전트 에코시스템 설계에 중요한 설계 원칙을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기