다중모달 전용 완전 분산 서빙 시스템 vLLM‑Omni

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

vLLM‑Omni는 텍스트·이미지·비디오·오디오를 동시에 처리하는 any‑to‑any 멀티모달 모델을 위한 완전 분산 서빙 프레임워크이다. 단계‑그래프 추상화와 독립적인 단계 실행 엔진을 도입해 각 모달별 모델(AR LLM, Diffusion Transformer 등)을 별도 배치·GPU 할당으로 최적화한다. 통합 커넥터를 통해 단계 간 데이터 흐름을 관리하고, 실험에서 기존 LLM 전용 서빙 시스템 대비 작업 완료 시간을 최대 91.4% 단축하였다.

상세 분석

본 논문은 최근 급부상하고 있는 any‑to‑any 멀티모달 모델이 직면한 서빙 병목을 체계적으로 분석하고, 이를 해결하기 위한 vLLM‑Omni 시스템을 제안한다. 핵심 아이디어는 “단계(stage) 추상화”와 “분산 단계 실행 백엔드”이다. 단계 추상화는 복잡한 멀티모달 파이프라인을 노드와 엣지로 표현된 DAG 형태의 그래프로 변환한다. 각 노드는 AR LLM, Diffusion Transformer(DiT), 혹은 특수 디코더와 같이 서로 다른 연산 특성을 가진 모델 컴포넌트를 의미한다. 엣지는 전 단계의 출력 토큰, 임베딩, 혹은 중간 KV 캐시 등을 변환·전송하는 사용자 정의 함수이다. 이러한 그래프 기반 정의는 기존 텍스트‑전용 step‑centric API와 달리 다단계, 다형식 흐름을 자연스럽게 기술한다.

백엔드에서는 오케스트레이터가 요청을 수신하면 단계별 스케줄러에게 전달하고, 각 단계는 독립적인 실행 엔진(vLLM 기반 AR 엔진, 전용 DiT 엔진 등)에서 동작한다. 중요한 최적화는 단계별 배치이다. 동일 단계에 모인 요청은 GPU 메모리와 연산 효율을 극대화하도록 동적 배치되며, KV‑cache 관리 역시 단계별로 독립적으로 수행된다. 또한, 사용자는 각 단계에 할당할 GPU 수, 메모리 한도, 병렬 전략(예: tensor‑parallel, pipeline‑parallel)을 명시적으로 지정할 수 있어, 연산량이 큰 LLM 단계와 상대적으로 가벼운 DiT 단계 사이의 자원 불균형을 해소한다.

데이터 전송 메커니즘은 “통합 커넥터”로 구현된다. 이는 단계 간에 CPU‑GPU 간 복사, 공유 메모리, 혹은 RDMA 기반 전송을 추상화한 인터페이스이며, 사용자 정의 변환 함수를 통해 토큰 → 임베딩, 이미지 토큰 → latent 등 복잡한 변환 로직을 삽입한다. 이 설계는 기존 프레임워크에서 개발자가 직접 구현하던 파이프라인 오케스트레이션을 프레임워크 수준으로 끌어올려, 코드 복잡도와 레이턴시를 크게 감소시킨다.

실험에서는 Qwen‑3‑Omni, GLM‑Image, BAGEL 등 대표적인 any‑to‑any 모델을 대상으로 벤치마크를 수행하였다. vLLM‑Omni는 동일 하드웨어(A100 40GB) 환경에서 기존 vLLM·SGLang 기반 단일‑스테이지 서빙 대비 작업 완료 시간(JCT)을 평균 71.2%, 최고 91.4%까지 단축하였다. 특히, Thinker‑Talker 구조처럼 두 개 이상의 AR LLM이 연속적으로 호출되는 경우, 단계별 배치와 독립 GPU 할당이 병목을 크게 완화한다. 자원 사용률 측면에서도 GPU 메모리와 연산 유틸리제이션이 1.8배 이상 향상되었으며, 시스템 스케일링 실험에서 단계별 엔진을 수평 확장함으로써 처리량(throughput)도 선형에 가깝게 증가함을 확인하였다.

한계점으로는 현재 DiT 엔진이 이미지·비디오 생성에 최적화돼 있으나, 오디오 전용 Diffusion 모델이나 최신 멀티모달 토큰화 방식에 대한 지원이 아직 초기 단계라는 점이다. 또한, 단계 그래프가 복잡해질수록 오케스트레이션 오버헤드가 증가할 가능성이 있어, 자동 최적화(예: 단계 병합, 파이프라인 재배치) 기능이 향후 연구 과제로 남는다.

다중모달 전용 완전 분산 서빙 시스템 vLLM‑Omni

초록

상세 분석

댓글 및 학술 토론

의견 남기기