DualMap 캐시 친화와 부하 균형을 동시에 잡는 분산 LLM 스케줄러

DualMap 캐시 친화와 부하 균형을 동시에 잡는 분산 LLM 스케줄러
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DualMap은 프롬프트 접두어를 기반으로 두 개의 독립 해시값을 생성해 두 후보 인스턴스를 제시하고, 현재 부하와 SLO 상황을 고려해 최적의 후보를 선택한다. 캐시 친화성을 유지하면서 “두 선택의 힘”(Power‑of‑Two‑Choices) 원리를 적용해 부하를 고르게 분산하고, 핫스팟 완화, 동적 스케일링을 위한 추가 메커니즘을 제공한다. 실험 결과, 동일한 TTFT SLO 하에서 기존 최첨단 스케줄러 대비 최대 2.25배의 유효 요청 처리량을 달성한다.

상세 분석

DualMap은 LLM 서빙 환경에서 KV 캐시 재사용을 극대화하면서도 인스턴스 간 부하를 균등하게 유지하려는 근본적인 딜레마를 해소한다. 핵심 아이디어는 요청마다 프롬프트 접두어를 입력으로 하는 두 개의 서로 독립적인 해시 함수 f₁, f₂ 를 적용해 두 후보 인스턴스를 도출하고, 실시간 부하 정보와 SLO(시간‑첫‑토큰) 초과 여부에 따라 최적 후보를 선택하는 ‘이중 매핑’ 전략이다.

1️⃣ 캐시 친화성 보장: 동일 접두어를 가진 요청은 두 해시 함수가 동일한 후보 집합을 생성할 확률이 높아, 대부분 같은 인스턴스에 할당된다. 이때 캐시 히트율은 max(0, 1 − 2/m) 으로, 전통적인 캐시‑친화 전략과 거의 동등한 수준을 유지한다.

2️⃣ 부하 균형: 두 후보 중 부하가 낮은 인스턴스를 선택하는 ‘두 선택의 힘’은 이론적으로 max 부하를 m/n + log log n + O(1) 으로 제한한다. 단일 선택(d=1) 대비 로그‑로그 수준의 편차 감소는 대규모 클러스터에서 지연을 현저히 낮춘다.

3️⃣ SLO‑aware 라우팅: TTFT가 사전 정의된 SLO를 초과하면 캐시 친화성을 포기하고 부하‑우선 라우팅으로 전환한다. 이는 급격한 트래픽 급증 시에도 서비스 레벨을 유지하도록 설계된 동적 전환 메커니즘이다.

4️⃣ 핫스팟‑aware 리밸런싱: 특정 접두어가 과도히 집중될 경우, 해당 인스턴스의 백업 후보(두 번째 해시 결과)로 일부 요청을 이동시킨다. 이동 대상은 백업 인스턴스의 부하가 낮고, 기존 캐시와의 재사용 가능성이 높은 경우에 우선 선택한다. 이렇게 하면 캐시 손실을 최소화하면서도 핫스팟을 완화한다.

5️⃣ 경량 이중 해시 링 스케일링: 인스턴스 추가·제거 시 전체 해시 매핑을 재계산하지 않는다. 두 개의 독립 해시 링에 인스턴스를 배치하고, 링상의 상대 위치만을 기준으로 매핑을 수행한다. 따라서 스케일링 시 영향을 받는 요청 비율이 전체의 O(1/n) 에 불과해, 실시간 확장·축소가 저비용으로 가능하다.

실험에서는 Qwen2.5‑7B 모델을 8‑인스턴스 클러스터에 배치하고, 실제 대화·툴‑에이전트 워크로드를 사용해 기존 Mooncake, Preble, Dynamo 등과 비교했다. 캐시 히트율은 Least‑Loaded 대비 1.2배 이상, 부하 불균형 지표(CV)는 Least‑Loaded 수준에 근접하면서도 전체 유효 처리량은 2.25배까지 향상되었다. 이는 DualMap이 캐시 재사용과 부하 균형 사이의 트레이드오프를 효과적으로 중재함을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기