서버리스 환경에 최적화된 이종 MoE 추론 시스템 Remoe

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.18674
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

Mixture‑of‑Experts(MoE) 구조는 전문가 모듈을 희소하게 활성화함으로써 대규모 언어 모델의 용량을 효율적으로 확장한다. 반면, 서버리스 컴퓨팅은 탄력적인 자원 할당과 사용량 기반 과금 모델 덕분에 급증하는 워크로드에 적합하지만, 수많은 전문가 파라미터를 메모리에 캐시해야 하는 비용이 크게 발생한다. 입력에 따라 활성화되는 전문가가 달라 단순히 모델을 분할하는 것만으로는 메모리 부담을 완화하기 어렵다. 이를 해결하기 위해 우리는 GPU에 비전문가 모듈을, CPU에 전문가 모듈을 배치하고, 드물게 호출되는 전문가를 별도 서버리스 함수로 오프로드하는 이종 추론 시스템 Remoe를 제안한다. 핵심 기술로는 (1) 입력 의미 유사성을 기반으로 전문가 활성화 패턴을 예측하는 Similar Prompts Searching(SPS) 알고리즘, (2) 최악 상황 메모리 사용량을 사전에 추정해 서비스 수준 목표(SLO)를 보장하는 Main Model Pre‑allocation(MMP) 알고리즘, (3) 라그랑주 이중성 및 최장 처리 시간(LPT) 스케줄링을 활용한 메모리·복제 최적화 프레임워크가 있다. 쿠버네티스 기반 구현을 통해 여러 LLM 벤치마크에서 평가한 결과, Remoe는 기존 최첨단 방법에 비해 추론 비용을 최대 57 % 절감하고 콜드 스타트 지연을 47 % 감소시켰다.

💡 논문 핵심 해설 (Deep Analysis)

Mixture‑of‑Experts(MoE) 모델은 “전문가”라 불리는 서브네트워크를 입력에 따라 선택적으로 활성화함으로써 파라미터 수는 크게 늘리면서도 실제 연산량은 제한한다는 장점을 갖는다. 이러한 구조는 대형 언어 모델(Large Language Model, LLM)의 스케일링에 매우 효과적이지만, 동시에 수천 개에 달하는 전문가 파라미터를 메모리에 상주시켜야 하는 부담을 안긴다. 특히 서버리스 환경에서는 함수 인스턴스가 필요할 때마다 메모리를 할당받고, 사용이 끝나면 해제되는 특성 때문에, 메모리 사용량이 비용에 직접 연결된다. 기존 연구들은 전문가와 비전문가를 동일한 디바이스(예: GPU) 위에 배치하거나, 전문가를 정적으로 파티셔닝하는 방식으로 메모리 압박을 완화하려 했지만, 입력에 따라 활성화되는 전문가가 달라지는 동적 특성을 고려하지 못한다는 한계가 있었다.

Remoe는 이러한 한계를 극복하기 위해 이종 하드웨어 배치를 도입한다. 비전문가 모듈(예: 토큰 임베딩, 포지션 인코더, 최종 디코더 등)은 연산 집약도가 높고 메모리 사용량이 비교적 일정하기 때문에 GPU에 상주시켜 고속 연산을 유지한다. 반면 전문가 모듈은 파라미터가 방대하지만 실제 호출 빈도가 입력에 따라 크게 차이나므로, CPU와 서버리스 함수(예: AWS Lambda, Azure Functions)로 분산한다. 특히, 드물게 활성화되는 전문가를 별도 서버리스 함수로 오프로드하면 메모리 캐시 압력을 크게 낮출 수 있을 뿐 아니라, 여러 함수가 병렬로 실행돼 전체 추론 지연을 감소시킨다.

핵심 알고리즘인 Similar Prompts Searching(SPS)은 사전 구축된 프롬프트 임베딩 공간에서 현재 입력과 의미적으로 가장 유사한 프롬프트들을 검색하고, 해당 프롬프트들이 과거에 활성화했던 전문가 집합을 추정한다. 이를 통해 입력이 들어오기 전에 어느 전문가가 필요할지 미리 예측함으로써, 서버리스 함수 호출을 사전 준비(pre‑warm)하거나, 불필요한 전문가 로드 비용을 회피할 수 있다. Main Model Pre‑allocation(MMP)은 전체 모델의 최악 상황 메모리 요구량을 정량화하고, 이를 기반으로 GPU와 CPU에 할당할 메모리 양을 사전에 예약한다. 이렇게 하면 서비스 수준 목표(SLO)인 응답 시간 제한을 초과하지 않도록 보장하면서, 메모리 부족으로 인한 재시작이나 스케일링 지연을 방지한다.

마지막으로, 라그랑주 이중성을 이용한 메모리·복제 최적화 프레임워크는 각 전문가를 어느 디바이스에 복제할지, 그리고 복제본 수를 어떻게 조정할지를 전역 최적화한다. 여기서는 작업 부하를 균등하게 분배하기 위해 Longest Processing Time(LPT) 알고리즘을 적용해, 가장 무거운 전문가 작업을 먼저 할당함으로써 전체 처리 시간을 최소화한다.

실험 결과는 Remoe가 기존 GPU‑전용 MoE 추론 시스템 대비 메모리 사용량을 크게 줄이고, 서버리스 특유의 콜드 스타트 지연을 47 % 감소시켰으며, 비용 절감 효과는 최대 57 %에 달함을 보여준다. 이는 대규모 LLM을 비용 효율적으로 서비스하고자 하는 클라우드 제공업체와 기업에게 실질적인 가치를 제공한다는 점에서 의의가 크다.

📄 논문 본문 발췌 (Translation)

Mixture‑of‑Experts(MoE)는 희소한 전문가 활성화를 통해 모델 용량을 확장할 수 있기 때문에 대형 언어 모델(LLM)에서 지배적인 아키텍처가 되었다. 한편, 탄력성과 사용량 기반 과금 모델을 갖춘 서버리스 컴퓨팅은 급증하는 워크로드를 배포하는 데 적합하다. 그러나 MoE 모델에 존재하는 다수의 전문가들은 파라미터를 메모리에 캐시해야 하는 높은 추론 비용을 초래한다. 입력에 따라 활성화되는 전문가가 달라 단순한 모델 파티셔닝만으로는 이러한 비용을 완화하기 어렵다. 이러한 문제를 해결하기 위해 우리는 서버리스 컴퓨팅에 특화된 이종 MoE 추론 시스템인 Remoe를 제안한다. Remoe는 비전문가 모듈을 GPU에, 전문가 모듈을 CPU에 할당하고, 드물게 활성화되는 전문가를 별도의 서버리스 함수로 오프로드하여 메모리 오버헤드를 감소시키고 병렬 실행을 가능하게 한다. 우리는 세 가지 핵심 기술을 도입한다: (1) 입력 의미 유사성을 기반으로 전문가 활성화 패턴을 예측하는 Similar Prompts Searching(SPS) 알고리즘, (2) 최악 상황 메모리 추정을 통해 서비스 수준 목표(SLO)를 보장하는 Main Model Pre‑allocation(MMP) 알고리즘, (3) 라그랑주 이중성과 Longest Processing Time(LPT) 알고리즘을 활용한 메모리 및 복제 최적화 프레임워크. 우리는 Remoe를 Kubernetes 위에 구현하고 여러 LLM 벤치마크에서 평가하였다. 실험 결과, Remoe는 최신 최첨단 베이스라인에 비해 추론 비용을 최대 57 % 절감하고 콜드 스타트 지연을 47 % 감소시켰다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키