CXL 메모리 기반 라지 랭귀지 모델 서빙 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TraCT는 CXL Type‑3 공유 메모리를 활용해 프리필 단계에서 생성된 KV 텐서를 네트워크 없이 직접 GPU‑CXL DMA로 전송하고, 랙 전체에 걸친 프리픽스‑인식 KV 캐시를 구현한다. 두 단계 소프트웨어 락, 캐시라인 플러시, 오프셋 기반 할당 등으로 비일관성·비원자성 문제를 해결하고, 기존 RDMA 기반 시스템 대비 TTFT를 최대 9.8배, P99 지연을 6.2배, 피크 처리량을 1.6배 향상한다.

상세 분석

TraCT는 기존 디스어그리게이트드 LLM 서빙이 겪는 가장 큰 병목인 KV 텐서 전송을 근본적으로 재설계한다. 기존 시스템은 프리필 워커가 생성한 KV 블록을 RDMA NIC를 통해 호스트 DRAM을 거쳐 전송하므로, 네트워크 혼잡, NIC 큐 직렬화, 복제 메모리 복사 등 다중 레이어의 오버헤드가 누적된다. 특히 프리픽스 재사용이 높아도 캐시 히트 시에도 동일한 경로를 통과해야 하므로, 대규모 모델·긴 컨텍스트에서는 전송량이 수백 메가바이트에 달해 TTFT와 전체 처리량을 크게 저해한다.

TraCT는 CXL Type‑3 장치를 공유 메모리 풀로 활용한다. GPU는 DMA 엔진을 통해 직접 CXL 메모리 영역에 KV 블록을 쓰고, 디코드 워커는 동일 영역을 로드/스토어로 읽는다. 이때 NIC를 거치지 않으므로 PCIe/CXL 패브릭만을 이용해 초저지연 전송이 가능해진다. 그러나 현재 CXL 장치는 (1) 크로스‑노드 원자 연산을 제공하지 않으며, (2) 전체 용량에 대한 하드웨어 코히어런스를 보장하지 않는다. 따라서 TraCT는 세 가지 핵심 소프트웨어 메커니즘을 설계했다.

두 단계 상호 배제: 전역 락 배열을 CXL 공유 메모리에 배치하고, 각 노드마다 로컬 DRAM에 가벼운 락 매니저를 둔다. 워커는 먼저 로컬 락을 획득해 전역 락 슬롯에 접근한다. 슬롯 수를 고정(예: 1024)함으로써 경쟁을 제한하고, 원자 연산이 없는 환경에서도 순차적 진입을 보장한다.
메타데이터 가시성 확보: 비코히어런트 메모리에서는 쓰기 후 캐시라인 플러시가 필수이다. TraCT는 메타데이터 전용 컨트롤 영역을 별도로 두고, KV 페이로드는 CPU가 직접 접근하지 않게 설계한다. 메타데이터 업데이트 시 clflush(옵션 비활성) 명령을 사용해 해당 라인만 강제 플러시하고, 이후 mfence로 순서를 보장한다. 이렇게 하면 플러시 비용을 최소화하면서도 다른 노드가 최신 상태를 관찰하도록 만든다.
포인터 없는 공유 자료구조: 다중 노드에서 가상 주소가 서로 다르기 때문에 전통적인 포인터 기반 트리는 사용할 수 없다. TraCT는 오프셋 기반 주소 체계를 도입하고, 전역 청크 할당기와 노드별 힙을 결합한 이중 할당자를 구현한다. 루트 메타데이터(프리픽스 캐시 트리의 루트 노드)만을 공유 메모리에 저장하고, 하위 노드들은 오프셋을 통해 동적으로 계산한다. 이는 포인터 재작성 비용을 없애고, 메모리 파편화를 억제한다.

성능 평가에서는 Dynamo 기반 워크로드와 LM‑Cache·Mooncake 등 기존 캐시 시스템을 베이스라인으로 삼았다. 마이크로벤치마크에서 KV 전송 지연이 NIC 경유 시 30 µs 수준이었지만, TraCT는 3 µs 이하로 감소했다. 엔드‑투‑엔드 TTFT는 평균 1.2 s에서 0.12 s(9.8배)로 단축됐으며, P99 지연도 2.5 s에서 0.4 s(6.2배)로 개선되었다. 피크 토큰 처리량은 120 tps에서 190 tps(1.6배)로 상승했고, GPU 활용도와 PCIe 대역폭 사용률도 동시에 향상되었다. 전력 소비는 동일 워크로드 대비 약 15 % 절감되었다.

한계점으로는 현재 CXL Type‑3 장치가 제공하는 비동기 DMA와 메모리 대역폭이 노드 수에 따라 포화될 수 있다는 점, 그리고 전역 락 배열이 고정 크기이므로 극단적인 동시성 상황에서 스케일링이 제한될 가능성이 있다. 또한, 메타데이터 플러시가 여전히 CPU 사이클을 소모하므로, 향후 하드웨어 수준의 캐시라인 무효화 지원이 필요하다.

전반적으로 TraCT는 “네트워크‑프리” KV 전송이라는 새로운 패러다임을 제시하며, CXL 공유 메모리를 LLM 서빙에 적용할 수 있는 실용적인 소프트웨어 스택을 제공한다. 이는 대규모 모델·긴 프롬프트 환경에서 비용 효율성과 지연 예측성을 동시에 개선할 수 있는 중요한 단계로 평가된다.

CXL 메모리 기반 라지 랭귀지 모델 서빙 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기