MSCCL++: AI 추론을 위한 GPU 통신 추상화 혁신

MSCCL++: AI 추론을 위한 GPU 통신 추상화 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
MSCCL++는 GPU 집합 통신을 고성능·휴대성을 동시에 제공하도록 설계된 3계층 추상화 프레임워크이다. 저수준 Primitive API는 메모리‑맵, 포트‑맵, 스위치‑맵 전송 방식을 최소한의 하드웨어 노출로 구현하고, 동기·일관성 문제를 내부에서 해결한다. 상위 DSL은 개발자가 워크로드·토폴로지에 맞는 알고리즘을 선언적으로 기술하게 하며, DSL Executor가 Primitive을 이용해 최적화된 커널을 생성한다. 최상위 Collective API는 NCCL과 동일한 인터페이스를 제공해 기존 코드와 바로 교체 가능하게 만든다. 실험 결과, NCCL·RCCL·MSCCL 대비 평균 1.7×(최대 5.4×) 빠른 집합 연산과 AI 추론 워크로드에서 1.2×(최대 1.38×) 향상을 달성했으며, 새로운 하드웨어 기능(멀티멤, NVLink) 지원도 수주 내에 완료했다.

**

상세 분석

**
MSCCL++는 GPU 통신 스택을 “Primitive → DSL → Collective”라는 세 단계로 분리함으로써, 성능·휴대성·생산성이라는 삼중 목표를 동시에 달성한다는 점이 가장 큰 혁신이다.

  1. Primitive API는 기존 NCCL이 제공하던 send/recv/ copy/ reduce와 달리, 하드웨어가 지원하는 전송 모드(PortChannel, MemoryChannel, SwitchChannel)를 직접 노출한다. 각 채널은 put, get, signal, wait, reduce, broadcast 등 최소한의 원시 연산만 제공하고, 내부 구현에서 GPU‑CPU‑NIC 간의 동기화와 메모리 일관성을 보장한다. 특히 일방향(one‑sided) 비동기 전송을 지원해 busy‑wait 루프를 없애고, 연산과 통신을 겹칠 수 있는 기반을 마련한다.

  2. DSL은 스레드‑블록 수준의 전역 뷰를 제공하면서, Primitive의 비동기·일방향 특성을 그대로 유지한다. 개발자는 put, wait, reduce 등을 선언적으로 배열해 알고리즘을 기술하고, DSL Executor가 자동으로 intra‑block barrier 삽입, 메모리 접근 합병, 실행 계획 생성 등을 수행한다. 이는 기존 MSCCL와 달리 비동기 특성을 손실하지 않으며, 복잡한 연산‑통신 겹침을 손쉽게 구현하게 만든다.

  3. Collective API는 NCCL과 1:1 호환되는 인터페이스를 제공한다. 따라서 기존 AI 프레임워크(vLLM, SGLang 등)는 코드 수정 없이 MSCCL++ 라이브러리만 교체하면 된다. 내부적으로는 DSL‑generated 커널이나 직접 Primitive‑level 구현을 호출해 최적의 알고리즘을 선택한다.

성능 평가에서는 A100, H100, MI300x 등 최신 NVIDIA·AMD GPU에서 AllReduce, AllGather 등 주요 집합 연산을 테스트했다. MSCCL++ DSL 기반 커널은 NCCL 대비 평균 1.99×~2.08×, RCCL 대비 1.43× 빠르며, Primitive 직접 구현 커널은 DSL 대비 약 3 % 추가 이득을 보였다. AI 추론 워크로드(LLM 디코딩)에서는 vLLM에서 1.11×, SGLang에서 1.31× 속도 향상을 기록했다.

또한, 새로운 하드웨어 기능(멀티멤, NVLink 멀티‑노드) 지원에 걸린 인력·시간이 각각 16 person‑weeks, 2 person‑weeks에 불과했으며, 이는 MSCCL++가 하드웨어 변화에 빠르게 적응할 수 있음을 증명한다.

마지막으로, MSCCL++는 오픈소스로 공개돼 커뮤니티와 산업 파트너가 직접 기여·채택할 수 있다. AMD는 RCCL에 MSCCL++ API와 라이브러리를 통합했으며, Microsoft Azure의 여러 AI 서비스에서도 이미 프로덕션 단계로 운영 중이다. 이러한 실사용 검증은 설계가 실제 엔터프라이즈 환경에서도 견고함을 보여준다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기