LLM 서빙 시뮬레이터 2.0 이기종·분산 인프라 통합 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLMServingSim 2.0은 이기종 가속기와 메모리·컴퓨팅 분산 구조를 동시에 모델링하는 시스템‑레벨 시뮬레이터이다. 프로파일 기반 연산 성능·전력 모델과 런타임‑드리븐 요청 흐름을 결합해 배치, 라우팅, 오프로드, 프리픽스 캐시, 프리필‑디코드 분리 등 최신 서빙 기법을 하나의 시뮬레이션 루프에서 평가한다. 실제 데이터센터 배포와 비교했을 때 평균 0.95% 오차로 처리량·지연·메모리·전력을 정확히 재현하며, 복잡한 구성에서도 10분 내외의 시뮬레이션 시간을 유지한다.

상세 분석

LLMServingSim 2.0은 기존 시뮬레이터가 각각 하드웨어 상세 모델링(LLMCompass, ADOR) 혹은 서빙 정책(Visur, APEX)만을 다루던 한계를 극복한다. 핵심 설계는 ‘런타임 루프 내에서 서빙 결정과 하드웨어 동작을 동시에 시뮬레이션한다’는 점이다. 이를 위해 세 가지 입력(워크로드, 클러스터 구성, 연산·전력 프로파일)을 받아, 실행 플래너가 모델 서빙 그룹(MSG)을 생성하고, 요청 라우터가 동적 배치를 구성한다. MSG는 이기종 디바이스 풀, 배치 스케줄러, 연산 매퍼, 전력·메모리 모델을 포함한 모듈형 아키텍처로, 새로운 가속기나 메모리 계층을 프로파일만 교체하면 손쉽게 확장할 수 있다.

특히 프리필‑디코드(PD) 분리, 전문가 오프로드(Expert Offloading), 프리픽스 캐시(Prefix Caching)와 같은 최신 분산 서빙 기술을 모델에 포함시켜, KV 캐시의 다계층 이동, 전문가 라우팅에 따른 토큰‑레벨 부하 변동, 그리고 네트워크·인터커넥트 혼잡을 시간 흐름에 따라 정밀히 추적한다. 전력 모델은 연산·메모리·데이터 이동 각각에 대한 전력 프로파일을 적용해, 성능·에너지 트레이드오프를 동시에 평가한다.

검증에서는 Llama‑3.1‑70B, GPT‑NeoX 등 여러 모델을 실제 데이터센터(다양한 GPU·TPU·NPU·CXL 메모리)에서 실행한 결과와 비교했으며, 처리량, TTFT, TPOT, 메모리 사용량, 전력 소모 모두 평균 0.95% 이하의 오차를 보였다. 시뮬레이션 시간은 복잡한 8노드·다이아형 토폴로지에서도 10분 이내로, 프로파일 기반 접근이 높은 효율성을 제공함을 입증한다.

이러한 설계는 하드웨어·소프트웨어 공동 설계(co‑design) 연구에 필수적인 ‘런타임 상호작용’ 분석을 가능하게 한다. 예를 들어, 새로운 PIM 가속기의 메모리 대역폭이 증가했을 때 디코드 단계의 KV 캐시 히트율이 어떻게 변하고, 전체 지연에 어떤 영향을 미치는지를 시뮬레이션만으로 예측할 수 있다. 또한, 다양한 라우팅 정책이나 오프로드 전략을 교차 실험함으로써, 이기종 자원의 최적 활용 방안을 빠르게 탐색할 수 있다.

요약하면, LLMServingSim 2.0은 이기종·분산 LLM 서빙 인프라의 복합적인 런타임 동작을 하나의 프레임워크에서 정량화하고, 높은 정확도와 실용적인 시뮬레이션 속도를 제공함으로써 차세대 서빙 시스템 설계와 하드웨어 혁신을 연결하는 중요한 도구로 자리매김한다.

LLM 서빙 시뮬레이터 2.0 이기종·분산 인프라 통합 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기