대규모 LLM 추론의 병목 해결 프리필 디코드 경쟁과 최적 제어

대규모 LLM 추론의 병목 해결 프리필 디코드 경쟁과 최적 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 프리필 단계와 디코드 단계가 GPU 자원을 공유하면서 발생하는 상태 의존적 경쟁을 모델링하고, 이질적인 토큰 길이를 가진 다중 클래스 워크로드를 대상으로 대규모 GPU 클러스터에서 토큰 기반 수익을 최대화하는 최적 스케줄링 정책을 제시한다. 큐잉 네트워크와 유동 근사(LP) 해법을 이용해 게이트‑라우팅 정책을 설계하고, 다수 GPU 한계에서의 점근 최적성을 증명한다. 또한 지연·공정성 등 서비스 수준 지표(SLI)를 제약으로 포함한 확장 모델을 제공한다. 실험 결과, 제안 정책이 기존 휴리스틱보다 수익·지연·공정성 측면에서 우수함을 확인한다.

**

상세 분석

**
이 논문은 LLM 추론이 ‘프리필’과 ‘디코드’라는 두 단계로 구성된다는 사실에 착안한다. 프리필은 입력 토큰을 처리하는 계산 집약적 단계이며, 디코드는 출력 토큰을 순차적으로 생성하는 메모리‑바운드 단계이다. 두 단계가 동일 GPU에서 동시에 실행될 경우, 프리필 작업이 디코드 작업의 반복 시간(iteration time)을 크게 늘려 전체 처리량을 저하시킨다. 저자는 이 현상을 ‘프리필‑디코드 경쟁’이라 명명하고, 실제 A100 GPU에서 측정한 반복 시간 데이터를 기반으로 상태 의존적 서비스 속도 함수를 도출한다.

핵심 모델링은 다중 클래스(multi‑class)·다중 서버(many‑server) 큐잉 네트워크이다. 각 클래스는 평균 입력·출력 토큰 수가 서로 다른 워크로드를 나타내며, GPU는 ‘혼합 모드(mixed)’(프리필+디코드 동시)와 ‘단독 모드(solo)’(디코드 전용) 두 가지 운영 상태를 가진다. 혼합 모드에서는 디코드 서비스 속도가 감소하고, 이는 서비스 속도 함수에 선형적으로 반영된다. 이러한 상태 의존적 서비스 속도는 기존 큐잉 이론의 정형화된 결과를 바로 적용하기 어렵게 만든다.

논문은 대규모 클러스터(수천 대 GPU)에서의 평균 동작을 분석하기 위해 ‘유동 근사(fluid approximation)’를 사용한다. 서버 수를 무한대로 확장하면 확률적 변동이 사라지고 시스템 상태는 결정론적 유동 방정식으로 수렴한다. 정적 균형에서는 각 GPU가 혼합·단독 모드에 할당되는 비율과 각 클래스별 목표 점유율을 변수로 하는 선형 프로그램(LP)이 도출된다. 이 LP는 토큰 기반 수익을 목표 함수로 하고, 총 GPU 용량 제약을 포함한다. LP 해는 최적의 용량 분할과 클래스별 입장 비율을 제공한다.

제어 설계는 두 단계로 나뉜다. 첫 번째는 ‘프리필 게이트(prefill gate)’로, LP에서 얻은 클래스별 목표 점유율을 실시간으로 추적하며 새로운 프리필 작업의 입장을 허용하거나 차단한다. 두 번째는 ‘디코드 라우터(decode router)’로, 프리필이 완료된 작업을 현재 사용 가능한 단독 모드 GPU에 배정한다. 이러한 정책은 LP 목표를 동적으로 강제함으로써, 많은 GPU 한계에서 수익 측면에서 점근 최적성을 보인다.

가격 모델에 따라 두 가지 경우를 분석한다. ‘번들 가격(bundled charging)’에서는 작업 전체가 완료될 때만 수익이 발생하므로 단순 점유율 기반 게이트만으로 충분하다. 반면 ‘단계별 가격(separate charging)’에서는 프리필과 디코드 각각에 수익이 부여되므로, 프리필을 과도하게 허용하면 디코드가 병목이 되어 전체 수익이 감소한다. 이를 방지하기 위해 디코드 단계에 우선순위 기반 라우팅을 추가한다.

또한 논문은 서비스 수준 지표(SLI)인 지연과 공정성을 제약으로 포함한 확장 LP를 제시한다. 공정성을 프리필 단계에서 보장하는 것이 디코드 단계에서 보장하는 것보다 수익 손실이 적다는 흥미로운 결과를 도출한다.

실험에서는 실제 GPU 반복 시간 데이터를 기반으로 파라미터를 캘리브레이션하고, 다양한 클래스 비율과 토큰 길이 분포를 시뮬레이션한다. 결과는 제안 정책이 기존 ‘FIFO’, ‘Shortest‑Job‑First’, ‘Batch‑First’ 등 휴리스틱 대비 평균 수익을 10‑20% 향상시키고, 95% 지연 백분위수와 공정성 지표에서도 우수함을 보여준다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기