GPU 내부 스케줄링 기반 다단계 MLLM 서비스 최적화

GPU 내부 스케줄링 기반 다단계 MLLM 서비스 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델(MLLM)의 세 단계 파이프라인(전처리·비전 인코더·LLM)에서 발생하는 지연과 자원 비효율을 해결한다. 영상 디코딩을 다중 GPU가 협업하도록 설계한 FlashCodec와, 단계별 논리적 분리를 유지하면서 GPU 자원을 공유하는 UnifiedServe를 제안한다. 실험 결과, 기존 시스템 대비 TTFT·TBT 개선 및 최대 4.4배 높은 처리량을 달성한다.

상세 분석

MLLM은 이미지·비디오 입력을 처리하기 위해 전처리(디코딩·패치 토큰 생성), 비전 인코더(패치 → 시각 임베딩), LLM(텍스트와 시각 임베딩 결합)라는 세 개의 이질적인 단계로 구성된다. 기존 서비스는 두 가지 설계 패턴, 즉 모든 단계가 하나의 인스턴스에 공존하는 Monolithic 방식과, 전처리·인코더와 LLM을 별도 인스턴스로 분리하는 Split 방식으로 구현된다. Monolithic은 GPU 메모리·연산을 전부 활용해 높은 스루풋을 얻지만, 비전 인코더가 계산 집약적이라 디코딩 단계와 경쟁하면서 토큰 생성 지연(TBT)이 크게 늘어난다. 반면 Split은 인코더와 LLM을 물리적으로 격리해 상호 간섭을 없애지만, 각 GPU가 담당하는 작업이 제한돼 전체 자원 활용도가 떨어지고, 특히 비전 인코더가 차지하는 GPU는 디코딩에 필요한 메모리·대역폭을 활용하지 못해 TTFT가 악화된다.

이러한 구조적 병목을 해소하기 위해 논문은 두 가지 핵심 아이디어를 제시한다. 첫째, 영상 디코딩을 단일 GPU가 아니라 시스템 내 모든 GPU의 NVDEC 엔진에 분산시켜 협업하게 하는 FlashCodec이다. 비디오를 비중복 세그먼트로 나누어 각 GPU에 할당하고, 엔진 간 공백 없이 파이프라인을 유지함으로써 단일 영상당 디코딩 지연을 2.8∼9배 가량 감소시킨다. 둘째, 단계 간 논리적 분리를 유지하면서 물리적으로는 동일 GPU 풀을 공유하도록 설계한 UnifiedServe이다. Vision‑Preprocess 워커가 FlashCodec로 디코딩을 수행하고, Encode‑Prefill 워커가 비전 인코더와 프리필을 순차적으로 실행하되, LLM 디코드 워커는 별도 프로세스로 독립 실행한다. 이때 공유 버퍼링 메커니즘을 도입해 중간 결과(패치 토큰·시각 임베딩)를 효율적으로 교환하고, 메모리 오버헤드를 최소화한다.

핵심은 디코딩 단계가 GPU 연산에 민감하게 방해받는 반면, LLM 디코딩은 메모리 대역폭에 의존한다는 비대칭성을 활용해, 디코딩이 진행되는 동안 남는 SM 사이클을 비전 인코더가 활용하도록 스케줄링한다는 점이다. 실험에서는 4× A100 GPU 클러스터에서 TTFT가 1.5배, TBT가 2배 개선되고, 전체 처리량이 최대 4.4배 상승함을 보여준다. 또한, 다중 GPU 확장을 통해 디코딩 지연이 2초 이하(8 GPU)로 감소하고, 인코더와 디코더 간 간섭이 최소화돼 SLO를 안정적으로 만족한다.

이러한 설계는 기존 CPU 기반 디코딩이 한계에 부딪히는 상황과, GPU 기반 고병렬 디코딩이 레이턴시 요구에 부합하지 못하는 문제를 동시에 해결한다. 또한, 비전 인코더와 LLM 사이의 자원 파편화를 해소해, 멀티모달 워크로드가 급증하는 실제 서비스 환경에서 확장성과 비용 효율성을 동시에 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기