Kubernetes 기반 GenAI 추론 성능 최적화: Whisper ASR과 LLM 요약 워크플로우 평가
초록
본 논문은 Kubernetes‑native 프로젝트인 Kueue, Dynamic Accelerator Slicer(DAS), 그리고 Gateway API Inference Extension(GAIE)을 결합해 자동 음성 인식(Whisper)과 대형 언어 모델 요약(LLaMA‑based) 파이프라인을 구현·평가한다. 배치 작업에서는 Kueue가 전체 makespan을 최대 15 % 단축하고, DAS가 평균 작업 완료 시간을 36 % 감소시켰으며, 온라인 추론에서는 GAIE와 llm‑d가 높은 부하에서도 Tail TTFT를 최대 90 % 개선한다는 결과를 제시한다.
상세 분석
이 연구는 세 가지 핵심 Kubernetes‑native 컴포넌트를 통합함으로써 GenAI 추론 워크플로우 전반에 걸친 시스템‑레벨 성능을 정량화한다. 첫 번째 단계인 배치 ASR에서는 Kueue가 LocalQueue‑ClusterQueue‑ResourceFlavor 계층 구조를 도입해 작업을 계층적으로 큐잉하고, 클러스터 전체 자원 가용성을 고려한 어드미션 컨트롤을 제공한다. 이를 통해 다수의 Whisper 전사 작업이 동시에 제출될 때 자원 경쟁을 최소화하고, 공정성을 유지하면서도 GPU 활용률을 높였다. DAS는 NVIDIA MIG 기반의 동적 슬라이싱을 자동화한다. 기존 정적 MIG 설정과 달리 DAS는 실시간 워크로드 특성에 맞춰 슬라이스 수와 크기를 조정하고, DRA와 연동해 Kubernetes 스케줄러가 슬라이스를 직접 할당하도록 한다. 실험 결과, 동일 GPU 노드에서 동일한 작업량을 실행했을 때 평균 작업 완료 시간이 36 % 단축되었으며, GPU 메모리와 코어 자원의 미세 활용도가 크게 향상되었다. 두 번째 단계인 온라인 LLM 요약에서는 llm‑d가 GAIE를 활용해 모델‑인스턴스와 가속기 메트릭(큐 길이, 프리픽스 캐시 히트율, LoRA 가용성 등)에 기반한 라우팅 정책을 구현한다. GAIE는 Gateway API 위에 도메인‑특화 라우터를 추가함으로써, 요청을 가장 적합한 파드로 즉시 전달하고, vLLM‑Optimized Inference Scheduler와 연계해 프리픽스‑캐시‑어웨어 스케줄링을 수행한다. 고부하 상황에서도 Tail TTFT가 최대 90 % 감소하고, 평균 응답 지연이 수 초 수준에서 6 초 이하로 유지되는 등 실시간 서비스 품질이 크게 개선되었다. 전체 파이프라인을 통해 Kubernetes가 배치와 스트리밍 추론을 동시에 지원하면서도 자원 효율성을 극대화할 수 있음을 입증한다. 또한, 논문은 기존 스케줄러(PAX, KaiS)와 GPU 공유 솔루션(nvshare, DISC) 대비 구현 복잡도와 운영 오버헤드가 낮으며, 표준 Kubernetes API와의 호환성을 유지한다는 장점을 강조한다. 한계점으로는 실험 클러스터가 NVIDIA GPU에 국한됐으며, 모델 크기와 데이터셋 다양성에 따른 확장성 검증이 추가로 필요하다는 점을 언급한다.
댓글 및 학술 토론
Loading comments...
의견 남기기