DALI: 로컬 PC에서 MoE 추론을 위한 동적 부하 인식 오프로드 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로컬 PC 환경에서 대규모 Mixture‑of‑Experts(모델) 실행 시 발생하는 CPU‑GPU 부하 불균형, 부정확한 프리패치, 낮은 캐시 적중률 문제를 해결한다. 전문가(Expert) 할당을 0‑1 정수 최적화로 모델링하고, 실행 시 Greedy Assignment으로 근사해 동적으로 CPU·GPU에 배분한다. 또한 레이어 간 잔차 정보를 활용한 Residual‑Based Prefetching과, 전문가 활성화의 시간적 상관성을 이용한 Workload‑Aware Cache Replacement을 제안한다. 실험 결과 DALI는 기존 오프로드 프레임워크 대비 프리필(pre‑fill) 단계에서 2‑8배, 디코딩 단계에서 1.3‑4배의 속도 향상을 달성한다.

상세 분석

DALI는 세 가지 핵심 모듈로 구성된다. 첫 번째는 동적 전문가 할당이다. 기존의 정적 할당 방식은 전문가별 워크로드(토큰당 활성화 횟수)가 입력에 따라 크게 변동함에도 불구하고 고정된 CPU·GPU 배치를 유지한다. 저자는 이를 0‑1 정수 최적화 문제로 정의하고, 목표 함수를 전체 추론 지연을 최소화하도록 설계하였다. 정확한 최적화는 NP‑hard이지만, 전문가 워크로드와 디바이스 처리 속도(CPU와 GPU의 초당 연산량)를 이용해 Greedy Assignment을 수행한다. 구체적으로, 현재 남은 워크로드를 기준으로 GPU에 할당할 후보를 선택하고, CPU와 GPU의 예상 실행 시간을 비교해 균형을 맞춘다. 이 과정은 매 MoE 레이어마다 실시간으로 수행되며, 부하가 급변하는 상황에서도 빠르게 재조정된다.

두 번째 모듈은 Residual‑Based Prefetching이다. 기존 프리패치 기법은 전문가의 과거 호출 빈도나 통계적 특징에 의존했지만, MoE에서는 고부하 전문가가 급격히 변할 수 있다. 저자는 인접 MoE 레이어 사이의 잔차(Residual) — 즉, 현재 레이어 입력과 이전 레이어 출력의 차이 — 를 특징으로 사용한다. 잔차는 토큰이 어떤 전문가를 필요로 하는지를 암시하므로, 이를 기반으로 고부하 전문가를 사전에 예측한다. 실제 구현에서는 잔차 벡터를 경량 신경망에 입력해 상위 k 개의 전문가를 선정하고, PCIe 전송을 미리 시작한다. 실험에서 이 방법은 기존 통계 기반 프리패치 대비 30 % 이상 높은 정확도를 보였다.

세 번째는 Workload‑Aware Cache Replacement이다. GPU 메모리 내 캐시 공간은 제한적이므로, 어떤 전문가 파라미터를 유지할지 결정하는 교체 정책이 중요하다. 저자는 전문가 활성화가 시간에 따라 높은 상관관계를 가진다는 관찰에 기반해, 최근 N 스텝 동안 가장 많이 사용된 전문가를 우선 유지하고, 사용 빈도가 급감한 전문가를 교체한다. 또한, 워크로드 예측값을 활용해 향후에 필요할 가능성이 높은 전문가를 미리 캐시한다. 결과적으로 캐시 적중률이 25 %에서 68 % 이상으로 크게 상승했다.

종합적으로, DALI는 CPU‑GPU 병렬 활용, PCIe 전송 최소화, GPU 캐시 효율 극대화라는 세 축을 동시에 최적화한다. 실험에서는 Mixtral‑8×7B, DeepSeek‑V2, Qwen‑1.5 등 다양한 MoE 모델을 대상으로, 기존 llama.cpp, KTransformers, MoE‑Lightning, HybriMoE와 비교해 프리필 단계에서 평균 7.62×, 디코딩 단계에서 평균 3.97×의 속도 향상을 기록했다. 특히 배치 크기가 작을 때도 CPU와 GPU가 동시에 작업을 수행함으로써 대기 시간을 크게 줄였다. 이러한 결과는 로컬 PC 환경에서도 대규모 MoE 모델을 실시간 추론할 수 있는 가능성을 열어준다.

DALI: 로컬 PC에서 MoE 추론을 위한 동적 부하 인식 오프로드 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기