모바일 엣지 LLM 핸드오버 지연 최소화를 위한 KV 캐시 전송·토큰 프리필 공동 최적화

본 논문은 대형 언어 모델(LLM)을 엣지 서버에 배치하여 모바일 사용자에게 저지연 토큰 스트리밍 서비스를 제공하고자 하는 상황에서, 사용자가 이동하면서 베이스 스테이션(BS) 간 핸드오버(HO) 시 발생하는 서비스 중단 문제를 해결한다. LLM 추론은 자동회귀 방식으로, 이전 토큰들의 KV(Key‑Value) 캐시가 현재 토큰 생성에 필수적이다. 따라서 UE가 소스 BS에서 타깃 BS로 이동할 때, 타깃 BS는 해당 UE의 KV 캐시를 복구해야만 토큰 스트리밍을 재개할 수 있다. 기존에는 두 가지 방식이 사용되었다. 첫 번째는 토큰 전달 후 프리필(pre‑fill) 연산을 수행해 KV 캐시를 재구성하는 토큰‑기반 HO(tHO)이다. 이 방식은 프리필 연산이 무겁고, 다중 UE가 동시에 HO하면 배치 프리필로 인해 최악 사용자 지연이 크게 늘어난다. 두 번째는 KV 캐시 자체를 백홀(backhaul) 링크를 통해 직접 전송하는 캐시‑기반 HO(cHO)이다. KV 캐시가 수백 메가바이트에 달할 수 있어 백홀 용량이 제한적이면 전송 지연이 급증한다. 이에 저자들은 두 방식을 결합한 통합 설계인 ctHO(Combined token‑prefill and cache‑handover)를 제안한다. 핵심 아이디어는 전체 KV 캐시를 두 부분으로 나누어, 일부는 토큰을 받아 프리필로 재구성하고, 나머지는 백홀을 통해 직접 전송한다. 이를 위해 시스템은 다음과 같은 가정을 둔다. (1) 소스 BS는 각 UE i에 대해 HO 트리거 시점 τ_i와 디코딩된 토큰 수 C_i를 사전에 알고 있다. (2) 프리필 지연은 L(프리필 길이)과 선형 관계 p(L)=aL+b 로 모델링한다. (3) 백홀 용량 R은 KV 캐시 페이로드당 토큰 수 단위로 정규화되어, r_i(t) ≤ R 를 만족하도록 할당한다. 문제 정의는 최악 사용자 LLM HO 지연 D(L, r)=max_i max{D_pf_i(L), D_tx_i(L, r_i)}를 최소화하는 최적화 문제 P이다. 여기서 D_pf_i(L)=T_pf(L)−τ_i는 배치 프리필 완료까지 걸리는 시간, D_tx_i(L, r_i)=T_tx_i(L, r_i)−τ_i는 백홀 전송 완료까지 걸리는 시간이다. P는 L과 r_i(t) 두 변수에 대해 비선형이며, 다중 UE가 동시에 HO하는 상황을 포괄한다. 저자들은 P를 두 단계로 분리할 수 있음을 증명한다. 첫 번째 단계에서는 고정된 L에 대해 백홀 전송률 r_i(t)를 최적화한다. 이때 각 UE i는 n_tx_i(L)=max{C_i−L,0} 토큰에 대응하는 KV 캐시를 전송해야 한다. 누적 전송량 S_k(L)=∑_{i=1}^k n_tx_i(L)와 각 UE의 HO 시점 차이 τ_k−τ_1을 이용해, 전송 지연의 하한은 D*_tx(L)=max_k ⌈

모바일 엣지 LLM 핸드오버 지연 최소화를 위한 KV 캐시 전송·토큰 프리필 공동 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기