긴문맥 LLM을 위한 오프로드 기반 잠재 캐시 관리 아키텍처 ESS

긴문맥 LLM을 위한 오프로드 기반 잠재 캐시 관리 아키텍처 ESS
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ESS는 DeepSeek‑V3.2‑Exp 모델의 디코드 단계에서 발생하는 GPU 메모리 한계를 해결하기 위해 잠재 캐시(Latent‑Cache)를 CPU 메모리로 오프로드하고, 핵심 연산은 GPU에 남겨두는 설계이다. 작은 블록 전송 효율을 높이는 UV‑A 기반 FlashTrans, LRU‑Warmup을 통한 캐시 미스 감소, 그리고 Compute‑Communication 겹침 기법을 결합해 32K 컨텍스트에서 69.4%, 128K에서 최대 123%의 스루풋 향상을 달성한다.

상세 분석

본 논문은 대규모 언어 모델(Large Language Model, LLM) 서비스에서 긴 컨텍스트를 처리할 때 발생하는 ‘디코드 단계’의 병목 현상을 집중적으로 분석한다. DeepSeek‑V3.2‑Exp은 희소 어텐션을 도입해 연산량을 크게 줄였음에도 불구하고, 디코드 시에 매 단계마다 생성되는 Latent‑Cache가 선형적으로 증가하면서 GPU 메모리(HBM)의 용량을 초과한다. 결과적으로 배치 사이즈를 확대할 수 없게 되고, 토큰당 처리량이 하드웨어 이론치에 크게 못 미친다.

ESS는 이러한 메모리 제약을 ‘오프로드‑프리패치(offload‑prefetch)’ 전략으로 해결한다. 핵심 아이디어는 Top‑2K 중요한 캐시 엔트리를 GPU에 유지하고, 나머지 대다수의 Latent‑Cache를 CPU 메모리(DDR)로 옮겨 GPU 메모리를 확장하는 것이다. 이를 위해 세 가지 기술적 과제가 제시된다. 첫째, 캐시 블록이 656 바이트로 매우 작고, 매 스텝마다 2,048개의 블록이 산발적으로 접근되기 때문에 PCIe 대역폭을 효율적으로 활용하기 어렵다. 논문은 Unified Virtual Addressing(UVA)을 활용한 FlashTrans 연산자를 설계해, GPU가 직접 CPU의 핀 메모리에 주소 기반으로 접근하도록 함으로써 작은 블록 전송의 오버헤드를 크게 낮추고, 실제 H2D 전송 대역폭을 0.79 GB/s에서 37 GB/s 수준으로 끌어올렸다.

둘째, 캐시 미스가 빈번하면 H2D 전송이 연산 파이프라인을 차단해 전체 지연이 증가한다. 이를 방지하기 위해 LRU 기반 교체 정책을 적용하고, 초기 디코드 단계에서 캐시 히트율을 높이기 위한 LRU‑Warmup 기법을 도입한다. Warmup 단계에서는 프리‑풀 단계의 마지막 32 윈도우에서 사용된 Top‑2K 엔트리를 미리 GPU 캐시에 삽입해, 초기 디코드 시 발생하는 급격한 캐시 미스를 크게 감소시킨다. 실험 결과, Warmup 적용 후 초기 10 스텝 동안의 캐시 미스가 70% 이상 감소하였다.

셋째, 데이터 전송과 연산을 겹쳐 수행하는 오버랩 기법이 필요하다. 기존 SGLang 구현에서는 Indexer 연산이 끝나야 H2D 전송이 시작되고, 전송이 완료돼야 Attention 연산이 진행되는 순차 구조였다. ESS는 Attention을 forward_prepare와 forward_core 단계로 분리하고, PreAttn 부분을 Indexer 연산이 끝난 뒤에 비동기로 실행하도록 재구성한다. 또한 Dual‑Attention(DA) Overlap과 DualBatch‑Attention(DBA) Overlap을 도입해, 두 개의 어텐션 파이프라인을 동시에 진행시켜 GPU가 데이터 전송 대기 상태에 머무는 시간을 최소화한다.

종합적으로, ESS는 GPU 메모리 제한을 효과적으로 해소하고, 작은 블록 전송 효율을 극대화하며, 캐시 미스와 데이터 전송 지연을 최소화한다. 시뮬레이션 기반 평가에서는 32K 컨텍스트에서 69.4%, 128K 컨텍스트에서 최대 123%의 스루풋 향상을 기록했으며, 이는 기존 시스템 대비 디코드 단계의 처리량을 크게 끌어올린 결과이다. 이러한 설계는 정확도를 손상시키지 않으면서도 비용 효율적인 대규모 LLM 서비스 구현에 실질적인 가치를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기