비용 효율적인 LLM 서비스, 이기종 모델·GPU와 다목적 베이지안 최적화로 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BOute는 이기종 대형 언어 모델과 다양한 GPU 자원을 동시에 활용해 라우팅과 배치를 공동 최적화한다. 다목적 베이지안 최적화(MOBO) 기반의 프레임워크로 지연시간·품질·비용을 삼중 목표로 설정하고, 파레토 최적 해를 탐색해 동일 예산·품질 조건에서 기존 시스템 대비 평균 59%~157% 성능 향상을 달성한다.

상세 분석

본 논문은 LLM 서빙 환경에서 두 가지 이기종성을 동시에 고려해야 하는 실질적인 문제를 제시한다. 첫 번째는 모델 이기종성으로, 작은 모델은 저비용·저지연, 큰 모델은 높은 품질을 제공한다는 전제 하에 쿼리 난이도에 따라 동적으로 라우팅한다는 ‘이기종 모델 라우팅’이다. 두 번째는 GPU 이기종성으로, H100과 RTX 5090 같은 서로 다른 연산·메모리 특성을 가진 장비를 혼합해 비용 대비 성능을 최적화한다는 ‘이기종 모델 배치’ 개념이다. 기존 연구는 각각을 별도로 최적화했지만, 라우팅 결정이 GPU 배치에, 배치 구성이 라우팅에 영향을 미치는 상호 의존성을 무시한다.

BOute는 이 상호 의존성을 공식화하여 ‘라우팅 임계값 τ’와 ‘GPU 할당·병렬화 전략(데이터·텐서·파이프라인 병렬도)’을 결정 변수로 하는 제약 최적화 문제로 변환한다. 목표는 (1) 95번째 백분위수 지연(P95 latency) 최소화, (2) 응답 품질(예: GSM8K 정확도) 보장, (3) 비용 제한 하에서 전체 시스템 효율 극대화이다. 다목적 베이지안 최적화(MOBO)를 적용함으로써 탐색 비용을 크게 줄이고, 각 목표 간 트레이드오프를 파레토 전선 형태로 제공한다.

실험에서는 Llama 3.1‑70B와 Llama 3.1‑8B 두 모델을 사용해, 동질 GPU(12 × H100)와 이기종 GPU(6 × RTX 5090 + 10 × H100) 구성을 동일 비용 수준에서 비교한다. 라우팅만 적용했을 때는 작은 모델에 과도한 부하가 걸려 지연이 증가했지만, GPU 할당을 모델별 부하에 맞게 조정(예: 4 GPU → 소형, 8 GPU → 대형)하면 지연이 20% 감소한다. 최종적으로 이기종 GPU를 도입해 소형 모델을 RTX 5090에, 대형 모델을 H100에 배치하면 전체 P95 지연이 33% 감소하고 품질 점수도 91.2점(목표 90점)으로 향상된다.

BOute는 이러한 실험 결과를 기반으로, 라우팅 전략과 배치 전략을 동시에 최적화함으로써 비용 대비 성능을 크게 끌어올릴 수 있음을 입증한다. 특히, MOBO가 제공하는 파레토 전선을 통해 서비스 제공자는 예산·품질·지연 중 우선순위에 따라 적절한 배포 옵션을 선택할 수 있다. 논문은 또한 모델‑GPU 매칭이 모델별 연산 특성(예: 메모리 대역폭, 텐서 코어 활용도)과 직접 연관됨을 실증적으로 보여주며, 이기종 자원을 단순히 ‘대체’가 아니라 ‘보완’하는 방식으로 활용해야 함을 강조한다.

비용 효율적인 LLM 서비스, 이기종 모델·GPU와 다목적 베이지안 최적화로 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기