GPU 공유의 새로운 패러다임: Deterministic Sharing으로 성능·정확도 동시 확보
DetShare는 GPU 코루틴이라는 가상 실행 컨텍스트를 도입해, 커널 수정 없이도 공간적 공유를 구현한다. 이를 통해 기존 공유 방식이 야기하던 수치적·통계적 비결정성을 완전히 제거하고, 작업 우선순위 기반 스케줄링으로 tail‑latency를 예측 가능하게 만든다. 실험 결과, 학습 처리량이 최대 79 % 향상되고, 추론 P99 지연이 15 % 감소했으며, 평균 추론 지연은 69 % 줄어드는 등 전반적인 효율성이 크게 개선되었다.
저자: Zhenyuan Yang, Wenxin Zheng, Mingyu Li
본 논문은 현대 데이터센터에서 GPU 활용률을 극대화하기 위한 공유 메커니즘의 한계점을 짚고, 새로운 시스템 DetShare를 제안한다. 기존의 시간‑슬라이스 기반 ‘Temporal Sharing’은 자원 활용도가 낮고, 지연 민감 서비스에서 tail‑latency가 급증한다는 문제점이 있다. 반면, ‘Spatial Sharing’은 SM 단위로 자원을 나누어 동시 실행을 가능하게 하지만, 대부분 커널을 수정하거나 배치 크기를 동적으로 조정해야 하는 ‘Kernel Atomization’ 기법을 사용한다. 이는 부동소수점 연산의 비결합성에 의해 수치적 비결정성을 초래하고, 배치 정규화와 같은 통계 연산을 왜곡시켜 학습 수렴을 방해한다. 또한, 이러한 방법은 개발자가 직접 커널을 재작성해야 하는 높은 엔지니어링 비용을 요구한다.
DetShare는 이러한 세 가지 문제(C1‑Semantic Determinism, C2‑Performance Determinism, C3‑Transparency)를 동시에 해결한다. 핵심 아이디어는 ‘GPU 코루틴’이라는 추상화이다. 애플리케이션은 가상 컨텍스트(vCtx)를 통해 GPU에 접근하고, DetShare의 중앙 스케줄러가 vCtx를 물리적 컨텍스트(pCtx)와 매핑한다. pCtx는 MPS가 제공하는 주소 공간 격리와 Green Contexts가 제공하는 경량 프리엠션을 활용해, SM 할당량을 동적으로 조정한다. 이때 커널 자체는 전혀 수정되지 않으며, 실행 순서와 배치 크기도 변하지 않으므로 부동소수점 연산의 비결합성에 의한 수치 오차가 발생하지 않는다. 즉, 동일 입력에 대해 독립 실행 시와 동일한 결과를 보장한다(semantic determinism).
성능 측면에서는 DetShare가 워크로드‑인식 스케줄링을 수행한다. 각 작업은 ‘latency‑critical’ 혹은 ‘throughput‑oriented’로 분류되며, TPOT‑FIRST 정책에 따라 우선순위가 부여된다. 지연 민감 작업은 즉시 높은 SM 할당량을 받아 tail‑latency를 최소화하고, 남은 SM은 배치‑중심 작업에 재분배돼 전체 처리량을 끌어올린다. 컨텍스트 마이그레이션은 코루틴 전환 메커니즘을 이용해 오버헤드가 미미하고, GPU 내부 프리엠션을 통해 빠르게 수행된다.
실험은 세 가지 워크로드(대규모 DNN 학습, LLM 추론, 학습‑추론 혼합)와 실제 데이터센터 트레이스를 사용해 수행되었다. 결과는 다음과 같다. (1) 학습 처리량은 기존 Temporal Sharing 대비 최대 79.2 % 향상되었으며, GPU 이용률도 크게 상승했다. (2) DNN 학습과 LLM 추론을 동시에 실행할 때, 추론의 P99 지연이 15.1 % 감소하면서도 학습 처리량은 유지되었다. (3) TPOT‑FIRST 정책 적용 시, 평균 추론 지연이 69.1 % 감소하고, TPOT SLO 위반률이 21.2 % 감소했다. 또한, MIG와 달리 디바이스 리셋 없이 실시간 SM 할당량 조정이 가능해 재구성 비용이 거의 없으며, 자원 파편화도 최소화된다.
DetShare의 구현은 NVIDIA CUDA 11.x와 최신 A100 GPU를 기반으로 하며, 기존 MPS 서버와 Green Contexts를 그대로 활용한다. 따라서 추가 하드웨어 비용이 들지 않으며, 기존 클라우드 인프라에 손쉽게 통합할 수 있다. 논문은 또한 DetShare가 향후 GPU 아키텍처에 내장될 경우, 더욱 정교한 하드웨어‑소프트웨어 협업을 통해 공유 효율을 극대화할 수 있는 가능성을 제시한다.
결론적으로, DetShare는 ‘커널 무변경·정확도 보장·성능 예측 가능·투명성’이라는 네 가지 목표를 모두 달성함으로써, 데이터센터 수준의 GPU 공유에 새로운 기준을 제시한다. 이는 대규모 AI 서비스 운영 비용을 크게 절감하고, 서비스 품질을 유지하면서도 자원 활용도를 극대화하는 실용적인 솔루션이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기