모바일 MoE 효율적 서빙을 위한 ZipMoE 설계

모바일 MoE 효율적 서빙을 위한 ZipMoE 설계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ZipMoE는 엣지 디바이스의 통합 메모리 구조와 MoE 모델의 비트‑필드 중복성을 활용해 손실 없는 압축·계층형 캐시·CPU‑GPU 협업 스케줄링을 구현한다. 압축된 지수 비트를 다중 코어 CPU에서 병렬 복원하고, 부분 캐시 히트 시 압축‑복원과 I/O를 겹쳐 실행함으로써 메모리 I/O를 크게 감소시키고 연산을 컴퓨팅 중심으로 전환한다. 실험 결과, 기존 최첨단 대비 평균 72.77 % 지연 감소와 6.76배 높은 처리량을 달성한다.

상세 분석

ZipMoE는 모바일 SoC가 공유 메모리(UMA)를 갖는 점을 핵심 설계 전제로 삼는다. 기존 MoE 오프로드 방식은 서버‑급 CPU 메모리를 가정하고 SSD‑GPU 간 PCIe 전송을 전제로 하지만, 엣지 디바이스에서는 SSD 읽기 대역폭이 1~5 GB/s에 불과해 I/O 병목이 심각하다. 논문은 BF16 형식의 지수 비트가 14 % 이하의 심한 편향을 보이며 엔트로피가 2.5 bit 수준에 머무는 점을 실험적으로 확인하고, 이를 기반으로 손실 없는 압축을 적용한다. ZSTD와 LZ4HC 압축기를 사용했을 때 68 %~74 %의 압축률을 달성했으며, 이는 Shannon 한계에 근접한다.

압축된 파라미터는 ‘E‑chunk’(압축된 지수 비트)와 ‘SM‑chunk’(비압축된 부호·맨티사 비트)로 분리된다. CPU 코어 3개 이상에서 다중 스레드로 압축 해제하면 SSD 읽기 지연보다 짧아져 복원 작업을 I/O와 겹쳐 수행할 수 있다. 또한 복원 과정이 메모리 컨트롤러 대역폭을 약 7 %만 차지해 CPU·GPU·SSD 간 자원 간섭이 미미함을 실증한다.

핵심 스케줄링은 계층형 캐시·전문가 스키워니스 확률 모델을 이용해 각 압축 상태별 메모리 예산을 동적 프로그래밍으로 최적 배분한다. 캐시‑어피니티 스케줄러는 현재 캐시 상태와 요청된 전문가의 압축 레벨을 고려해, 부분 캐시 히트 시 압축된 지수 비트를 백그라운드에서 복원하고, 나머지 비압축 비트는 즉시 GPU에 전달한다. 이 설계는 “전문가 텐서 전체를 메모리에 올리는” 전통 방식보다 2배 이상의 텐서 커버리지를 동일 메모리 한도 내에서 제공한다.

시스템 구현은 오프라인 초기화 단계에서 비트‑필드 분해·압축·메타데이터 직렬화를 수행하고, 런타임 단계에서는 CPU 워커 스레드가 압축 해제 파이프라인을 관리한다. GPU 커널은 압축 해제된 지수 비트를 기존 SM‑chunk와 결합해 zero‑copy 방식으로 텐서를 재구성한다. 실험은 Jetson AGX Orin, 모바일 SoC, 라즈베리 파이 등 4종 플랫폼에서 DeepSeekV2‑Lite, Qwen1.5‑MoE, Switch‑Transformers‑Large‑128 모델을 대상으로 수행했으며, 평균 72.77 % 지연 감소와 6.76× 처리량 향상을 보고한다. 이는 기존 오프로드·파이프라인 방식이 배치‑1 상황에서 겪는 CPU·GPU 유휴 시간을 크게 줄인 결과이다. 논문은 또한 압축·복원 오버헤드가 메모리 대역폭에 비해 무시할 수준이며, 다중 코어 활용도가 높은 모바일 환경에서 최적화 여지가 충분함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기