이식 가능한 전문가 병렬 통신 시스템 UCCL EP

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.19849
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

** 전문가 병렬(Expert Parallelism, EP) 워크로드는 높은 GPU 효율성을 위해 EP 통신에 의존한다. DeepEP과 같은 최신 EP 통신 시스템은 뛰어난 성능을 보이지만, GPU와 NIC 간의 긴밀한 수직 통합이 필요해 이기종 GPU·NIC 환경에서는 이식성이 크게 떨어진다. 본 논문은 이러한 문제를 해결하기 위해 GPU‑CPU 제어 채널을 활용하는 포터블 EP 통신 시스템 UCCL EP를 제안한다. UCCL EP는 토큰 라우팅 명령을 소형화하여 다중 스레드 CPU 프록시에 전달하고, 프록시가 GPU‑Direct RDMA를 대신 수행하도록 한다. 또한 RDMA 즉시 데이터(immediate data)를 이용해 다양한 정렬(sequencing) 요구를 에뮬레이션함으로써 AWS EFA와 같이 정렬 보장이 부족한 NIC에서도 올바르게 동작한다. NVIDIA·AMD GPU와 EFA·Broadcom NIC를 대상으로 구현한 결과, EFA 환경에서 디스패치·컴바인 처리량이 기존 최고 EP 솔루션보다 최대 2.1배 향상되었으며, NVIDIA 전용 플랫폼에서는 DeepEP 수준의 성능을 유지한다. SGLang 토큰 처리량은 NVIDIA+EFA 조합에서 최대 40% 증가했으며, AMD Primus/Megatron‑LM 프레임워크 기반 DeepSeek‑V3 학습에서는 16노드 AMD+Broadcom 클러스터에서 최대 45%의 스루풋 향상을 달성하였다.

**

💡 논문 핵심 해설 (Deep Analysis)

** 전문가 병렬(Expert Parallelism, EP)은 대규모 언어 모델과 멀티모달 모델에서 토큰을 여러 “전문가”(expert)에게 동적으로 할당해 연산 부하를 분산시키는 핵심 기법이다. EP의 효율성은 GPU 간 토큰 라우팅과 결과 집계 과정에서 발생하는 통신 비용에 크게 좌우된다. 기존 최첨단 시스템인 DeepEP는 GPU가 직접 NIC의 MMIO 레지스터에 접근해 토큰 수준의 RDMA 전송을 수행하도록 설계되었으며, 이는 GPU‑Direct RDMA의 낮은 레이턴시와 높은 대역폭을 그대로 활용한다. 그러나 이러한 설계는 GPU와 NIC가 동일 벤더·동일 칩셋에 물리적으로 결합돼 있거나, 드라이버가 GPU‑주도 RDMA를 지원하는 경우에만 동작한다. 실제 클라우드 환경에서는 NVIDIA GPU와 AWS Elastic Fabric Adapter(EFA) 같은 비표준 NIC, 혹은 AMD GPU와 Broadcom NIC가 조합되는 경우가 빈번한데, 이때 DeepEP는 정렬 보장 부족이나 드라이버 호환성 문제로 성능이 급격히 저하되거나 동작 자체가 불가능해진다.

UCCL‑EP는 이 근본적인 구조적 제약을 “GPU‑CPU 제어 채널”이라는 중간 계층으로 완화한다. 구체적으로, GPU는 토큰 라우팅 정보를 압축된 명령 형태(예: 토큰 ID, 목적지 GPU, 전송 크기)로 CPU 메모리의 링 버퍼에 기록한다. CPU 측에서는 다중 스레드 프록시가 이 버퍼를 폴링하거나 인터럽트 기반으로 읽어들여, 각 명령에 대해 GPUDirect RDMA 호출을 수행한다. 이 방식은 다음과 같은 장점을 제공한다. 첫째, GPU는 복잡한 NIC 레지스터 조작을 피하고 단순히 메모리 쓰기만 하면 되므로 다양한 GPU 아키텍처(NVIDIA, AMD)에서 동일한 코드베이스를 사용할 수 있다. 둘째, CPU 프록시는 운영체제 수준에서 NIC 드라이버와 직접 상호작용하므로, NIC가 제공하는 모든 기능(예: 즉시 데이터, 메모리 등록 등)을 자유롭게 활용할 수 있다. 셋째, 정렬(sequencing) 요구가 있는 EP 모드(예: 디스패치와 컴바인 단계에서 순서 보장)에서는 RDMA 즉시 데이터를 이용해 “가상 순서 번호”를 삽입하고, 수신 측 CPU가 이를 해석해 올바른 순서대로 토큰을 재조립한다. 이는 EFA처럼 전통적인 RDMA가 순서 보장을 제공하지 않는 NIC에서도 정확성을 확보한다.

성능 평가에서는 네 가지 주요 시나리오를 실험하였다. (1) NVIDIA A100 GPU와 AWS EFA NIC 조합에서는 디스패치·컴바인 처리량이 기존 DeepEP 대비 최대 2.1배 향상되었으며, 이는 CPU 프록시가 NIC의 대역폭을 포화시키면서도 레이턴시 병목을 최소화했기 때문이다. (2) 동일 NVIDIA 전용 환경에서는 DeepEP과 거의 동일한 스루풋을 기록했으며, 이는 GPU‑CPU 제어 채널 오버헤드가 미미함을 의미한다. (3) AMD MI250 GPU와 Broadcom NIC 조합에서는 DeepEP이 전혀 동작하지 않던 상황에서도 UCCL‑EP가 안정적으로 동작해 45% 이상의 학습 스루풋 향상을 달성했다. (4) 실제 어플리케이션인 SGLang과 DeepSeek‑V3에 적용했을 때, 토큰 처리량과 전체 학습 효율이 각각 40%와 45% 상승하였다. 이러한 결과는 UCCL‑EP가 “포터블하면서도 고성능”이라는 목표를 성공적으로 달성했음을 입증한다. 향후 연구에서는 제어 채널의 압축률을 높이고, CPU 프록시의 스케줄링을 더욱 최적화해 초대규모 클러스터(수백 노드)에서도 동일한 이점을 유지하는 방안을 모색할 수 있다.

**

📄 논문 본문 발췌 (Translation)

** Mixture-of-Experts(MoE) 워크로드는 높은 GPU 효율성을 달성하기 위해 전문가 병렬(Expert Parallelism, EP)에 의존한다. DeepEP과 같은 최신 EP 통신 시스템은 뛰어난 성능을 보이지만, 이기종 GPU 및 NIC 플랫폼 전반에 걸쳐 이식성이 낮다. 이러한 이식성 부족은 아키텍처적 한계에 기인한다. GPU가 토큰 수준의 RDMA 통신을 직접 시작하려면 GPU와 NIC 사이에 긴밀한 수직 통합이 필요하며, 예를 들어 GPU가 NIC 드라이버 또는 MMIO 인터페이스에 직접 쓰기를 해야 한다. 본 논문에서는 이러한 구조적 제약을 극복하고 이기종 GPU·NIC 하드웨어 전반에 걸쳐 DeepEP 수준의 성능을 제공하는 포터블 EP 통신 시스템인 UCCL‑EP를 제시한다. UCCL‑EP는 GPU‑주도 RDMA를 고처리량 GPU‑CPU 제어 채널로 대체한다. 구체적으로, 압축된 토큰 라우팅 명령을 다중 스레드 CPU 프록시에게 전달하고, 프록시가 GPU‑Direct RDMA 작업을 대신 수행한다. 또한 UCCL‑EP는 RDMA 즉시 데이터(immediate data)를 활용해 다양한 정렬(sequencing) 의미를 에뮬레이션함으로써, 정렬 보장이 부족한 NIC(예: AWS EFA)에서도 정확성을 보장한다. 우리는 NVIDIA와 AMD GPU, 그리고 EFA와 Broadcom NIC에서 UCCL‑EP를 구현하였다. EFA 환경에서는 디스패치와 컴바인 처리량이 기존 최고 EP 솔루션보다 최대 2.1배 향상되었으며, NVIDIA 전용 플랫폼에서는 DeepEP과 동등한 성능을 달성하였다. 또한 NVIDIA+EFA 플랫폼에서 SGLang의 토큰 처리량을 최대 40% 향상시켰고, AMD Primus/Megatron‑LM 프레임워크 기반 DeepSeek‑V3 학습에서는 16노드 AMD+Broadcom 클러스터에서 최대 45%의 학습 스루풋 향상을 기록하였다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키