PARD 사전 요청 삭제로 추론 파이프라인 Goodput 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티‑모델 DNN 추론 파이프라인에서 지연 목표를 만족하지 못하는 요청을 사전에 삭제(proactive dropping)함으로써 전체 시스템의 Goodput을 크게 높이는 방법을 제안한다. 기존의 반응형(request‑reactive) 삭제 정책은 지연 초과가 확정된 뒤에야 요청을 버리기 때문에 타이밍이 늦고, 잘못된 요청을 선택해 버리는 문제가 있다. PARD는 런타임 정보를 양방향으로 활용해 각 단계에서 요청의 전체 지연을 예측하고, 남은 지연 예산과 현재 워크로드 강도에 따라 우선순위를 동적으로 부여해 가장 효율적인 요청 집합을 미리 삭제한다. 64 GPU 클러스터 실험 결과, 기존 최첨단 시스템 대비 Goodput을 16 %–176 % 향상시키고, 삭제 비율과 낭비 연산을 각각 1.6 ×–17 ×, 1.5 ×–62 × 감소시켰다.

상세 분석

PARD가 제시하는 핵심 아이디어는 “프로액티브(request‑proactive) 삭제”와 “적응형 우선순위(adaptive priority)”라는 두 축으로 요약할 수 있다. 첫 번째 축인 프로액티브 삭제는 기존 시스템이 “이미 초과했거나 곧 초과할 것”이라는 판단에 의존해 마지막 모듈에서 대량으로 요청을 버리는 반면, PARD는 각 모듈에서 전·후 단계의 런타임 메트릭(예: 현재 대기 배치 크기, 예상 배치 대기시간, 이전 모듈의 실제 처리시간)을 실시간으로 수집한다. 이를 바탕으로 요청별 남은 전체 지연 예산을 추정하고, 해당 예산이 남은 모듈들의 최소 추정 실행시간보다 작을 경우 즉시 삭제한다. 이렇게 하면 초기 단계에서 이미 불가능한 요청을 걸러내어 뒤쪽 모듈의 연산 자원을 절약하고, 큐잉 지연을 감소시켜 전체 파이프라인의 흐름을 원활하게 만든다.

두 번째 축인 적응형 우선순위는 단순 FIFO가 아닌, “남은 지연 예산”과 “워크로드 강도”를 복합적으로 고려한다. 구체적으로, PARD는 각 요청에 대해 남은 지연 예산을 정규화하고, 현재 시스템의 부하 수준(예: GPU 사용률, 배치 대기열 길이)과 결합해 우선순위 점수를 산출한다. 부하가 낮을 때는 남은 예산이 큰 요청을 우선 처리해 전체 Goodput을 극대화하고, 부하가 급증하면 예산이 작은 요청을 먼저 삭제해 시스템이 과부하 상태에 빠지는 것을 방지한다. 이 하이브리드 정책은 “드롭‑타이밍”과 “드롭‑대상”을 동시에 최적화한다는 점에서 기존의 반응형 정책과 근본적으로 차별화된다.

PARD의 설계는 또한 두 가지 실용적인 도전을 해결한다. 첫째, 배치와 큐잉으로 인한 지연 불확실성을 최소화하기 위해, PARD는 “양방향(latency‑bidirectional) 추정 모델”을 도입한다. 이 모델은 앞선 모듈에서 실제 소요된 시간과 뒤쪽 모듈에서 예상되는 최소 실행시간을 결합해 현재 시점에서 가능한 최악·최선 지연을 동시에 계산한다. 둘째, 워크로드 변동성을 감지하기 위해 “워크로드 강도 감시기”를 두어 실시간으로 요청 도착률과 GPU 자원 사용률을 모니터링하고, 이 정보를 우선순위 점수에 반영한다. 이러한 설계는 실험에서 보여준 바와 같이, 급격한 트래픽 폭증 상황에서도 Goodput이 급격히 하락하지 않고, 오히려 16 %–176 %까지 향상되는 결과를 만든다.

전체적으로 PARD는 기존의 “리소스 스케일링·다이내믹 배칭·GPU 스케줄링”과는 독립적인 레이어에서 작동한다. 따라서 현재 상용 추론 프레임워크에 쉽게 통합될 수 있으며, 기존 최적화 기법과 병행 사용 시 시너지 효과를 기대할 수 있다.

PARD 사전 요청 삭제로 추론 파이프라인 Goodput 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기