메모리 제한 Edge TPU를 위한 다중 테넌트 협업 추론 최적화

메모리 제한 Edge TPU를 위한 다중 테넌트 협업 추론 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SwapLess는 Edge TPU의 8 MB SRAM 한계를 극복하기 위해 모델을 TPU와 CPU에 동적으로 분할하고, CPU 코어 할당을 동시에 최적화한다. 분석적 M/G/1 대기열 모델을 기반으로 실시간 파티션 지점과 코어 수를 조정해 스와핑 비용과 큐 지연을 최소화한다. 실험 결과, 단일 테넌트 환경에서 평균 지연을 최대 63.8 %, 다중 테넌트 환경에서는 최대 77.4 % 감소시켰다.

상세 분석

본 논문은 Edge TPU와 같은 메모리 제약 AI 가속기에서 발생하는 모델 스와핑 오버헤드가 전체 추론 지연의 60 % 이상을 차지한다는 실증적 분석으로 시작한다. 특히 다중 테넌트 상황에서는 서로 다른 모델이 연속으로 실행될 때 인터‑모델 스와핑이 추가적으로 발생해 지연이 급증한다. 저자들은 이러한 문제를 해결하기 위해 “협업 추론”이라는 접근을 제안한다. 핵심 아이디어는 연산 집약도가 낮은 후방 레이어를 CPU로 오프로드함으로써 TPU에 남는 메모리 풋프린트를 최소화하고, 동시에 CPU 코어를 동적으로 할당해 오프로드된 부분의 처리 속도를 보장하는 것이다.

SwapLess는 두 단계로 구성된다. 오프라인 단계에서 각 모델의 가능한 파티션 포인트를 탐색하고, 해당 파티션에 대한 TPU와 CPU 실행 시간, 메모리 사용량, 스와핑 비용을 프로파일링한다. 온라인 단계에서는 이 데이터를 바탕으로 M/G/1 대기열 모델을 이용해 전체 시스템의 기대 대기시간 E


댓글 및 학술 토론

Loading comments...

의견 남기기