BARISTA: 효율적이고 확장 가능한 딥러닝 예측 서비스를 위한 서버리스 제공 시스템
📝 원문 정보
- Title: BARISTA: Efficient and Scalable Serverless Serving System for Deep Learning Prediction Services
- ArXiv ID: 1904.01576
- 발행일: 2019-12-30
- 저자: Anirban Bhattacharjee, Ajay Dev Chhokra, Zhuangwei Kang, Hongyang Sun, Aniruddha Gokhale, Gabor Karsai
📝 초록 (Abstract)
예측 분석 서비스를 위한 사전 학습된 딥러닝 모델의 사용이 증가하고 있으며, 이는 피트니스 추적, 음성 및 이미지 인식과 같은 다양한 계산 집약적인 예측 분석 서비스에 활용되고 있습니다. 딥러닝 모델은 상태 없음(stateless)이고 높은 병렬 처리 가능성이 있어 서버리스 컴퓨팅 패러다임에 잘 맞습니다. 그러나 이러한 서비스의 효과적인 리소스 관리를 결정하는 것은 동적 작업 부하와 다양한 사용 가능한 리소스 구성, 그리고 그 배포 및 관리 비용 때문에 어려운 문제가 됩니다. 이 문제를 해결하기 위해 우리는 분산형이고 확장성이 있는 딥러닝 예측 제공 시스템인 Barista를 제시합니다. 다음과 같은 기여를 합니다: 1) 다양한 추세를 식별하여 작업 부하를 빠르고 효과적으로 예측하는 방법론을 제시합니다. 2) 특정 오차 한도 내에서 예측 지연 시간을 보장하면서 총 비용을 최소화하도록 최적화 문제를 정의합니다. 3) 적절한 컴퓨팅 리소스 구성 요소를 식별하기 위한 효율적인 휴리스틱 방법론을 제안합니다. 4) 수평 및 수직 확장을 통해 필요한 예측 지연 시간을 유지하는 데 필요한 계산 자원을 할당하고 관리하기 위해 지능형 에이전트를 제안합니다. 마지막으로, 도시 교통 서비스에 대한 대표적인 실제 작업 부하를 사용하여 Barista의 능력을 보여주고 검증합니다.💡 논문 핵심 해설 (Deep Analysis)
This paper introduces Barista, a distributed and serverless system for efficient management of deep learning models used in predictive analytics services like fitness tracking, speech recognition, and image recognition. The core challenge addressed is the effective resource allocation due to dynamic workloads and diverse configurations. Key contributions include workload forecasting using trend identification, optimization algorithms to minimize costs while ensuring latency bounds, heuristic methods for optimal resource selection, and intelligent agents for scaling resources dynamically.Barista’s architecture consists of frontend servers hosting user interfaces, backend servers with containerized deep learning models, load balancers distributing requests based on least-loaded policies, and a platform manager responsible for dynamic provisioning. The system’s components include workload forecasters, latency monitors, and resource managers that estimate and provision the necessary VMs for predicted loads.
Experimental results demonstrate Barista’s effectiveness in maintaining SLO compliance while optimizing costs, using real-world urban transportation datasets. This research is significant as it advances serverless computing architectures for deep learning predictions, contributing to efficient resource management in large-scale web applications and real-time data processing systems.