- Title: Beyond Gemini-3-Pro Revisiting LLM Routing and Aggregation at Scale
- ArXiv ID: 2601.01330
- 발행일: 2026-01-04
- 저자: Shengji Tang, Weihao Lin, Jingqi Ye, Hao Li, Bo Zhang, Shuyue Hu, Tao Chen, Wangli Ouyang, Lei Bai, Peng Ye
📝 초록
이 논문에서는 대형 언어 모델(LLM)들의 협업을 통해 인공일반지능(AGI)으로의 새로운 접근 방법을 제안한다. 특히, 개별적으로 약한 오픈소스 LLM들이 협력하여_gemini-3-pro_와 같은 주요 폐쇄형 모델들을 능가할 수 있음을 보여준다. 이를 위해 **JiSi**라는 새로운 프레임워크를 제안하며, 이는 라우팅과 집약(aggregation)의 통합을 통해 LLM들의 협업을 최적화한다.
💡 논문 해설
1. **라우터와 집합기의 재고찰**: JiSi는 기존의 단순한 질의 기반 라우팅에서 벗어나, 응답과 토큰 비용까지 고려하여 더 정확한 모델 선택을 가능하게 한다. 이를 통해 질의의 깊은 의미와 난이도를 포착할 수 있다.
2. **지원 집합 기반 집약기 선택**: JiSi는 다양한 태스크 정보가 풍부한 쿼리 지원 집합을 활용하여, 특정 도메인과 통합 능력을 모두 고려하는 동적 집약기 선택이 가능하다.
3. **응답 전략의 유연한 조절**: 각 후보 응답에 대한 정교한 사전 점수를 기반으로 라우팅과 집약을 유연하게 조절할 수 있다.
단순 설명 (초등학생용)
JiSi는 여러 개의 작은 로봇들이 협력해서 큰 문제를 해결하는 방법이다. 각 로봇은 자신이 잘하는 일이 있고, JiSi는 그들을 어떻게 가장 효과적으로 활용해야 하는지 알려준다.
중간 수준 설명 (고등학생용)
JiSi는 다양한 지능형 모델을 최대한 효율적으로 사용하여 복잡한 문제를 해결한다. 각각의 모델은 특정 분야에서 강점이 있고, JiSi는 어떤 모델이 어떤 작업에 가장 적합한지 결정하고 이를 최적화한다.
고급 설명 (과학자용)
JiSi 프레임워크는 개별적으로 약한 LLM들이 협력하여 주요 폐쇄형 모델을 능가하는 방법을 제시한다. 이는 질의와 응답, 토큰 비용을 고려한 라우팅과 도메인 전문성 및 통합 능력을 고려한 집약기 선택을 통해 이루어진다.
📄 논문 발췌 (ArXiv Source)
/>
다양한 LLM들과 제안된 JiSi의 전체 리더보드. 오픈소스 LLM들을 함께 활용함으로써, JiSi는_gemini-3-pro_와 같은 주요 폐쇄형 LLM들까지도 능가한다. 이는 집단 지능이 AGI로 향하는 새로운 길을 제시하고 있다.
서론
트랜스포머 기반 대형 언어 모델(LLMs)은 인공지능(AI)의 전반적인 풍경을 근본적으로 재구성했다. 모델 매개변수와 학습 데이터를 지속적으로 확대함으로써, LLMs는 이전에는 생각조차 할 수 없었던 능력을 실현했다. 특히 Gemini-3-Pro은 다양한 분야에서 성능의 새로운 기록을 세웠다. 하지만 이런 압도적인 성공은 더욱 강력한 단일 모델을 훈련시키는 현재 패러다임을 더욱 공고히 만들었다. 그럼에도 불구하고, 이로 인해 근본적인 질문이 제기된다: 무제한적으로 확대되는 단일 ‘슈퍼 모델’이 AGI로의 유일한 길인가?
/>
오픈소스 LLM들과의 비교. />
폐쇄형 소스 LLM들과의 비교.제안된 JiSi와 다른 LLM들 간의 종합적인 성능 비교. (a)와 (b)는 오픈소스 및 폐쇄형 소스 LLM들과의 세밀한 능력 비교를 보여준다. JiSi는 여러 벤치마크에서 우수한 성능을 달성한다.
본 논문에서는 대신 집단 지능을 통한 대안적인 접근 방법을 탐구하며, 개별적으로 약한 오픈소스 LLM들의 협업이_gemini-3-pro_와 같은 주요 폐쇄형 모델들을 능가할 수 있음을 보여준다. 다중 LLM 협업에 대한 기존 접근 방법은 크게 두 가지 범주로 나눌 수 있다. 첫 번째는 라우팅 기반 방법이다. 대표적인 방법으로는 RouterDC, EmbedLLM, GraphRouter, Avengers, 검색기반 라우터 등이 있다. 이러한 방법들은 일반적으로 쿼리 임베딩 기반 유사도 매칭 또는 경량화된 성능 예측기를 사용하여 각 입력에 가장 적합한 모델을 선택한다.
두 번째는 집약(aggregation) 기반 방법이다. 대표적인 기법으로는 Agent-Forest, mixture-of-agents, self-consistency, 다수결 투표 등이 있다. 이 방법들은 개별 모델의 한계를 초월하려고 노력하며 여러 LLM에서 제공하는 보완 정보를 통합하거나 일관된 합의를 도출한다.
우리가 목표를 달성하기 위해, 우리는 거대한 LLM들과 어려운 벤치마크에 대한 라우팅과 집약을 다시 살펴봤다. 그 결과: (1) 현재의 라우팅 방법들은 주로 학습이 필요하지 않으며, 쿼리를 잠재 공간으로 투영하여 클러스터링 또는 매칭 기반 모델 선택을 한다. 그러나 사전 훈련된 임베딩 모델은 텍스트 유사성만 포착하고 깊은 의미나 작업 난이도를 인식하지 못해, 최적의 선택이나 불일치를 초래한다.
(2) 최근의 집약 기법들은 주로 보완 정보를 활용하되 크게 정적인 특징을 가진다. 이는 적응적으로 강력한 집합기와 도메인별 능력을 갖춘 집합기를 선택하는 것이 어렵다는 것을 의미하며, 결국 중요한 응답 생성에서 병목 현상을 초래한다.
(3) 라우팅과 집약 사이의 보완성이 자주 간과된다: 라우팅은 안정성을 제공하지만 단일 모델에 제한되며, 집약은 개별 모델의 한계를 넘어서지만 낮은 품질의 출력이나 잡음을 겪는다. 직접적인 조합 방식들은 각각의 강점을 효과적으로 활용하는 데 어려움을 겪는다.
이러한 병목 현상을 극복하기 위해, 우리는 JiSi라는 새로운 프레임워크를 제안한다. 이는 최소한의 설계로도 매우 효과적인 방법을 제공한다. 구체적으로, 사전 구성된 임베딩 뱅크를 기반으로 세 가지 핵심 기법이 포함된다: 1) 쿼리-응답 혼합 라우팅: 얕은 텍스트 임베딩을 넘어 깊은 의미와 작업 난이도를 포착하기 위해, LLM이 생성한 응답 임베딩을 사용하여 라우팅 과정을 정교화한다. 2) 지원 집합 기반 집약기 선택: 도메인별 및 일반적인 집약 능력을 균형 있게 유지하기 위해, 더 큰 규모의 임베딩 지원 집합에서 유래한 사전 점수를 활용하여 동적으로 적절한 집합기를 선택한다. 3) 적응형 라우팅-집약 스위치: 정교화된 사전 점수에 따라 우수한 전문가 응답을 통합하거나 순수한 라우팅 전략으로 전환하는 적응형 스위치 메커니즘을 도입한다. 이 전략은 잡음을 억제하고 부적절한 정보의 집약기로의 전파를 방지한다.
우리는 제안된 방법 JiSi의 효과성을 평가하기 위해 종합적인 실험 비교와 분석을 수행했다. 구체적으로, 우리는 10개의 오픈소스 거대 LLMs을 후보 모델로 선택하고 JiSi를 9개의 어려운 벤치마크에 걸쳐 평가한다. Fig. 1에서 보듯이, 제안된 JiSi는 현재 최고 수준의 폐쇄형 소유권 모델들을 모두 능가한다._gemini-3-pro_와 비교했을 때, 평균 성능 향상은 +1.15이며 비용 절감은 **53.23%**이다. Fig. 4에서 보듯이, JiSi는 후보 LLM들의 특정 장점을 활용하고 그 상한선을 돌파한다. 더 나아가, JiSi는 모든 주요 기준선에 비해 훨씬 우수하다. 또한, 우리는 JiSi가 간결한 학습이 필요 없는 프레임워크로 새로운 LLM의 도입과 함께 일관된 성능 개선을 보여주며, 이는 그 강력한 확장성성을 강조한다.
관련 연구
집단 지능은 복잡한 작업에서 성능을 크게 향상시키기 위한 유망한 패러다임으로 부상하고 있다. 여러 모델 간의 협업 메커니즘을 조정함으로써, 집단 지능은 복잡한 작업에서 성능을 크게 향상시키는 것을 목표로 한다. 본 논문에서는 다중 LLM 협업에서의 집단 지능을 탐구하며 이를 라우팅 기반 방법과 집약 기반 방법으로 나눌 수 있다.
라우터 기반 방법: 이 접근 방식은 다양한 모델들의 도메인별 강점을 활용하여 작업 요구에 따라 쿼리를 라우팅한다. 예를 들어, ZOOTER는 오프더샵 보상 모델에서 신호를 추출하여 정밀한 쿼리 분배가 가능한 라우터를 훈련하는 방법을 제안했다. RouterDC는 이중 대비 학습을 통해 라우팅 정확도를 개선했다. GraphRouter은 이질적인 작업-쿼리-LLM 그래프를 구축하며, GNN을 통해 동적 엣지 예측 문제로 모델 선택을 수립한다. MODEL-SAT은 코어 작업에서 후보 모델의 성능을 능력 표현으로 인코딩하고 경량화된 LLM을 사용하여 최적의 후보를 예측한다.
집약 기반 방법: 이 방법들은 통합에 중점을 둔다. Agent-Forest는 응답들 간에 가장 자주 일치하는 대답을 선택하기 위해 다수결 투표 메커니즘을 사용한다. Mixture of Agents (MoA) 프레임워크는 반복적 협업을 통해 LLM들의 집단 강점을 활용하도록 계층적인 구조를 도입하며 생성 품질을 크게 개선한다. 이를 기반으로, SMoA는 응답 선택 및 조기 중지 메커니즘을 통합하여 에이전트 간의 정보 유동성을 분산화함으로써 성능과 효율성 사이의 균형을 맞춘다.
최근에는 라우팅과 집약을 결합한 통합 프레임워크를 탐구하고 있다. Sybomlic-MOE는 검증에서 파생된 기술 키워드에 따라 작업을 전문가에게 매칭하고 그 결과를 통합하는 기술을 채택한다. SMACS는 검색기반 사전 선택을 통해 후보 LLMs을 선택하고 탐색-이득 주도의 후속 향상 전략으로 출력을 정교화하는 더 확장 가능한 대안을 제공한다. SMACS는 30B$`\sim`$70B 규모의 LLM들의 연합이 플래그십 소유권 LLM들을 능가함을 보여주었으나, 이는 주로 소규모에서 중간 규모 모델에 대한 검증에 집중되었다. 대형 오픈소스 플래그십 모델들 (예: 200B 이상 매개변수)에 대한 확장성과 효과성이 여전히 탐구되지 않은 상태이다.
/>
JiSi는 기존의 라우팅 및 집약 방법을 재고찰하고 세 가지 측면에서 이를 재구성한다: 1) **라우팅**: 쿼리 기반에서 쿼리-응답 혼합으로; 2) **집약**: 고정된 집합기에서 지원 집합 기반 집합기 선택으로; 3) **조합**: 정적 라우팅 및 집약에서 적응형 라우팅-집약 스위치로. 간단하게, “**Agg**"는 집합기 또는 집약을 의미한다.
JiSi 프레임워크
JiSi 프레임워크는 기존의 라우터와 집약 방법에 대한 재고찰에서 나왔다. Fig. 5에서는 JiSi가 이전 방법들과 비교해 세 가지 측면에서 핵심적인 개선점을 직관적으로 보여준다.
라우터 재고찰: 현재의 LLM 라우터는 주로 쿼리 기반 방식을 사용하여 LLM을 선택한다. 주어진 쿼리와 후보 LLM들 간의 연결성을 평가하기 위해, 사전 훈련된 임베딩 모델을 통해 쿼리 표현을 직접 추출한다. 이 쿼리 표현은 클러스터링을 통해 LLM 프로필이나 LLM 임베딩을 구축하는 데 사용된다. 그러나 사전 훈련된 임베딩 모델들은 일반적인 텍스트 검색용으로 훈련되었기 때문에, 추출된 임베딩은 쿼리 텍스트 유사성에 초점을 맞추고 텍스트 겹침을 넘어서는 깊은 본질적 정보를 무시한다. 예를 들어, “모든 큰 짝수 숫자가 두 개의 소수의 합이다”와 “모든 큰 짝수 숫자가 두 개의 홀수의 합이다”는 거의 같은 단어를 사용하지만 마지막 단어가 다르다. 첫 번째 질문은 두 번째보다 훨씬 어렵다. 쿼리 임베딩을 기반으로 하면, 이들은 거의 구별되지 않는다. 결과적으로 부적합한 쿼리 특징이나 해당하는 쿼리 지원 집합이 생성되어 이러한 두 질문을 같은 LLM에 잘못 라우팅한다.
이 문제를 해결하기 위해 JiSi는 LLM의 강력한 의미 추출 능력을 활용하여 생성된 응답과 토큰 비용에서 보조 정보를 획득한다. 특정 쿼리에 대한 응답은 표면 수준 텍스트 유사성을 넘어서 잠재적인 의미적 정보를 제공한다. 예를 들어, LLM은 위의 두 질문에 대해 크게 다르게 반응할 가능성이 높아 임베딩 모델이 이를 효과적으로 구별할 수 있다. 또한, 특정 쿼리가 더 어려울수록 동일한 LLM에서 토큰 비용이 더 많이 발생한다는 직관적인 휴리스틱을 바탕으로 JiSi는 토큰 비용을 활용하여 쿼리 난이도를 더욱 정교하게 조정한다. 주목할 만한 점은 쿼리 텍스트 유사성이 여전히 필수적이라는 것이다. 이를 통해 JiSi는 쿼리, 응답 및 토큰 비용의 가중 통합을 통해 더 정확한 모델 라우팅을 달성한다.
집약 재고찰: 기존 집약 방법은 전체 성능에 기반하여 집약기를 정적으로 선택하는 것이며, 이는 집약기의 포괄적인 능력을 중점으로 한다. 특정 작업에는 적합하지 않을 수 있다. 그러나 LLM의 집약 능력이 본질적으로 그의 포괄적 능력과 관련되어 있지만 도메인별 전문가는 반드시 우수한 집약 기술을 갖추지 않아도 된다. 따라서 이상적인 집약기는 도메인별 및 포괄적 능력을 균형 있게 유지해야 한다. JiSi는 주어진 쿼리의 특정 지식 영역에서의 전문성과 더 넓은 범위의 쿼리에 대한 포괄적인 성능을 고려하여 최적의 작업별 집약기를 식별한다.
조합 재고찰: 기존 방법들은 일반적으로 라우팅과 집약을 유연하게 조합하는 대신 “다수를 라우팅하고 모두를 집약”이라는 작업 흐름을 따르며, 이는 집약을 라우팅의 후처리 단계로 취급한다. 그러나 라우팅과 집약의 보완성과 동적성이 오랫동안 간과되었다. 라우터는 일부 간단하고 직접적인 작업에 유리할 수 있지만, 집합 방법은 다른 복잡한 작업에 유용할 수 있다. 따라서 항상 모든 쿼리 복잡도 범위에서 집약을 적용하는 것은 효율적이지 않다. 또한 라우터는 안정적일 수 있으나 개별 모델의 성능 상한선을 돌파하기 어렵고, 반대로 집합은 개별 모델의 능력을 초월할 수 있지만 낮은 품질이나 잡음에 노출될 위험이 있다. 라우팅과 집약의 장점을 시너지 효과를 내기 위해, 우리는 사전 점수 기반으로 출력 전략을 위한 적응형 라우팅-집합 스위치 메커니즘을 제안한다. 구체적으로, JiSi는 라우팅 단계에서 사전 구성된 임베딩 뱅크를 활용하여 각 후보 응답에 대한 정교한 사전 점수를 얻고, 이를 통해 낮은 품질이나 잡음 응답을 제거하고 다양한 입력 수의 집약 모드 사이에서 시스템이 적응적으로 전환할 수 있다. 특히 단일 응답만이 높은 점수 임계치를 넘어서면 집약 과정을 우회하고 직접적인 라우팅을 적용하여 추론 효율성을 크게 향상시킨다.
프레임워크 개요
결과적으로, JiSi는 사전 구성된 임베딩 뱅크를 기반으로 세 가지 핵심 기법을 통합해 LLM들의 협업을 최적화한다. 이를 통해 JiSi는 단일 모델의 성능 상한선을 넘어가고 다양한 벤치마크에서 우수한 성능을 달성할 수 있다.