대규모 언어 모델을 위한 비용·용량 제약 하의 강인한 배치 수준 질의 라우팅

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비용과 GPU 용량, 동시성 제한을 동시에 만족하면서 LLM에 질의를 라우팅하는 새로운 배치‑레벨 최적화 프레임워크를 제안한다. 정수선형계획(ILP) 기반의 라우팅 모델에 추정 성능의 불확실성을 반영한 강인(robust) 버전을 추가하고, 사전 배치된 모델 인스턴스 수를 최적화하는 오프라인 할당 절차를 설계하였다. 실험 결과, 기존의 per‑query 라우팅 대비 비용 제어와 정확도 모두에서 크게 개선되었으며, 특히 적대적 배치 상황에서 24%까지 성능 향상을 보였다.

상세 분석

이 논문은 기존 LLM 라우팅 연구가 주로 개별 질의에 대한 비용‑품질 trade‑off를 λ 파라미터 하나로 조정하고, 배치 처리 시 발생하는 비용 변동성을 무시한다는 점을 비판한다. 저자들은 배치 전체를 하나의 의사결정 단위로 삼아, 각 질의‑모델 쌍에 대한 예측 성능 aᵢⱼ와 고정 비용 cⱼ를 이용해 평균 품질을 최대화하면서 전체 비용 ≤ N·C, 모델별 동시 처리 한계 lⱼ·Iⱼ, 그리고 각 질의는 정확히 하나의 모델에 할당된다는 제약을 동시에 만족하는 정수선형계획(ILP) 문제(식 2)를 정의한다.

핵심 기술적 기여는 다음과 같다. 첫째, 배치‑레벨 라우팅을 ILP로 공식화함으로써 비용과 GPU 용량을 명시적으로 제어한다. 이는 실시간 배치 크기(N)와 예산(C)에 따라 비용을 정확히 제한할 수 있어, 비용 초과나 미사용 상황을 방지한다. 둘째, 성능 추정 aᵢⱼ에 대한 불확실성을 고려한 강인 최적화(식 3)를 도입한다. 예측 구간

대규모 언어 모델을 위한 비용·용량 제약 하의 강인한 배치 수준 질의 라우팅

초록

상세 분석

댓글 및 학술 토론

의견 남기기