마이크로초 수준 GPU 선점으로 SLO 보장하는 Hummingbird

마이크로초 수준 GPU 선점으로 SLO 보장하는 Hummingbird
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Hummingbird는 닫힌 소스 NVIDIA GPU에서 마이크로초 단위의 선점을 구현하고, 고우선순위 작업의 SLO를 거의 완벽히 유지하면서 저우선순위 작업의 유휴 GPU 시간을 효율적으로 활용하는 새로운 GPU 스케줄링 시스템이다.

상세 분석

본 논문은 기존의 공간·시간 공유 방식이 GPU 자원 활용도와 SLO 보장 사이에서 겪는 근본적인 트레이드오프를 마이크로초 수준의 선점 메커니즘으로 해소한다는 점에서 혁신적이다. 핵심 아이디어는 “스플릿 커널”을 이용해 저우선순위 작업을 블록 단위로 나누고, 각 블록의 실행 시간을 400 µs 이하로 제한함으로써 선점 지점을 미세하게 조정하는 것이다. 이를 위해 Hummingbird는 (1) 커널 특성 및 하드웨어 사양을 자동 프로파일링해 최적 블록 수를 계산하는 커널 스플리터, (2) 스플리트 커널 로그를 기반으로 실시간으로 작업을 분할·재배치하고, 유휴 “버블”(GPU가 대기하거나 메모리·통신 대기 중인 짧은 시간 구간)을 탐지·통합하는 런타임 스케줄러, (3) NVLink 기반 계층형 메모리 오프로드를 지원하는 메모리 관리 모듈을 제시한다. 특히, 스케줄러는 “커널‑틱” 정책을 도입해 고우선순위 작업이 도착하면 현재 실행 중인 저우선순위 블록을 즉시 중단하고, 남은 실행 시간이 블록 실행 시간보다 짧을 경우에만 재실행하도록 함으로써 선점 지연을 µs 수준으로 억제한다. 실험 결과, A100·H100·L40 등 다양한 GPU에서 고우선순위 작업의 SLO 달성률을 기존 공간 공유(Orion, LithOS) 대비 9.7배, 시간 공유(REEF) 대비 3.5배 향상시켰으며, 독점 실행 대비 SLO 저하를 1 % 미만으로 제한하였다. 동시에 저우선순위 작업의 처리량은 REEF 대비 2.4배 증가해 GPU 활용도를 크게 끌어올렸다. 이러한 성과는 고우선순위 서비스(예: ChatGPT)와 저우선순위 배치 작업을 동시에 운영해야 하는 데이터센터 환경에서 실질적인 비용 절감과 서비스 품질 향상을 가능하게 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기