다중모델 혼합을 통한 동적 전문가 브로커와 자기평가형 토론 프로토콜
초록
N‑Way Self‑Evaluating Deliberation(NSED) 프로토콜은 실행 시점에 모델 선택을 배낭 문제로 최적화하는 동적 전문가 브로커와, 합의 상태를 순환 메모리로 활용하는 매크로‑스케일 RNN을 결합한다. 이를 통해 20 B 이하의 소형 모델들을 조합해 100 B 규모 모델과 동등하거나 우수한 성능을 달성하고, 사후 검증 메커니즘으로 시코피아와 허위 응답을 크게 감소시킨다.
상세 분석
본 논문은 기존 Mixture‑of‑Experts(MoE)와 Mixture‑of‑Agents(MoA) 구조가 갖는 정적 게이팅·그래프 기반 한계를 극복하기 위해, ‘N‑Way Self‑Evaluating Deliberation(NSED)’이라는 새로운 런타임 혼합‑모델(MoM) 아키텍처를 제안한다. 핵심은 두 가지 혁신이다. 첫째, Dynamic Expertise Broker는 각 모델 체크포인트를 비용·지연·성능 제약을 고려한 배낭 최적화 문제로 형식화한다. 실행 시점에 실시간 텔레메트리를 수집하고, 제한된 GPU 메모리와 SLA(서비스 수준 계약)를 만족하도록 최적의 모델 서브셋을 선택한다. 이 과정은 NP‑hard 문제이지만, 논문에서는 근사적 그리디 알고리즘과 라그랑주 승수를 이용한 이중화 기법을 제시해 실시간 성능을 확보한다. 둘째, 매크로‑스케일 Recurrent Neural Network(Macro‑Scale SRNN) 설계는 합의 상태를 ‘숨겨진 상태’로 두고, 의미적 포게이트(γ)를 통해 이전 라운드의 결과를 점진적으로 감쇠시킨다. 이는 토큰‑레벨 라우팅이 아닌 의미‑레벨 라우팅을 가능하게 하여, ‘Granularity Mismatch’를 해소하고 VRAM 사용량을 라운드 수에 비례하지 않게 만든다.
합의 메커니즘은 Quadratic Voting 활성화 함수를 사용해 비선형 가중치를 부여하고, 대각 마스크(D)로 각 에이전트의 제안과 자체 투표를 분리한다(Trustless Consensus). 이 설계는 권위 편향과 ‘herding’ 현상을 억제하고, 피드백 루프에서 발생하는 시코피아를 자동으로 감소시킨다. 또한, 논문은 효율‑피로 모델(Utility(t)=1−(1−pg)·e^{−Λ(pv−pg)t}−βt^2)을 도출해, 검증 정확도(pv)와 생성 정확도(pg) 사이의 차이가 클수록 라운드당 정보 획득이 증가하고, 컨텍스트 피로(β)가 누적될수록 수렴이 늦어지는 열역학적 관점을 제공한다.
실험에서는 AIME 2025, LiveCodeBench, DarkBench 등 3개의 베치마크에서 5~7개의 10‑20 B 파라미터 모델을 조합해 100 B+ 모델 수준의 정확도와 안전성을 달성했다. 특히, 사후 검증 단계에서 동료‑에이전트가 제시한 오류를 30 % 이상 감소시켰으며, 시코피아 점수가 개별 모델 대비 0.12 포인트 낮았다. 이러한 결과는 동적 라우팅과 순환 합의가 모델 규모와 무관하게 성능을 끌어올릴 수 있음을 실증한다.
전반적으로 NSED는 (1) 실행 시점에 비용‑효율을 최적화하는 배낭 기반 브로커, (2) 의미‑레벨 순환 합의를 통한 메모리 효율, (3) 게임이론적 투표와 신뢰 없는 토폴로지를 결합한 안전 메커니즘이라는 세 축을 통해, 차세대 대규모 AI 시스템의 하드웨어 의존성을 크게 낮추면서도 투명하고 검증 가능한 추론 파이프라인을 제공한다는 점에서 학술적·산업적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기