슬링샷 인터커넥트: 차세대 고성능 이더넷 네트워크 분석

슬링샷 인터커넥트: 차세대 고성능 이더넷 네트워크 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

슬링샷은 64포트 200 Gb/s 고레디스 스위치를 기반으로, 드래곤플라이 토폴로지를 활용해 최대 3홉의 저지연 경로를 제공한다. 적응형 라우팅·혼잡 제어·QoS 기능을 Ethernet과 호환되도록 설계했으며, 실험 결과 기존 Aries 대비 혼잡에 강하고 평균 350 ns 수준의 스위치 지연을 보인다.

상세 분석

슬링샷 인터커넥트는 Cray‑HPE가 공동 개발한 차세대 네트워크로, 핵심은 ROSetta ASIC이다. 64개의 포트를 200 Gb/s(실제 50 Gb/s 레인당) 속도로 구동하며, 16 nm TSMC 공정으로 250 W 전력을 소모한다. 스위치는 32개의 타일 블록으로 구성되며, 각 타일은 두 포트를 담당한다. 행‑버스와 열‑크로스바 구조를 이용해 포트 간 데이터는 최대 두 번의 내부 홉(행 → 열)만 거치므로 라우팅 지연이 최소화된다. 요청‑전송(Request‑to‑Transmit)·전송‑허가(Grant‑to‑Transmit) 메커니즘을 채택해 헤드‑오브‑라인 차단을 방지하고, 가상 출력 큐(Virtual Output Queuing)로 포트 간 충돌을 격리한다. 또한, 요청 큐 크레딧과 엔드‑투‑엔드 ACK를 이용해 실시간 혼잡 정보를 수집하고, 이를 라우팅 선택과 혼잡 제어에 활용한다.

토폴로지는 완전 연결된 드래곤플라이 구조를 채택한다. 각 스위치는 16개의 노드와 직접 연결하고, 나머지 48포트는 그룹 내·외부 스위치 연결에 사용한다. 그룹 간은 광케이블(최대 100 m)으로 연결되어 전체 직경이 3홉을 넘지 않는다. 이 설계는 노드 배치에 따른 성능 변동을 40 % 이하로 억제하고, 대규모 시스템에서도 일관된 대역폭(≈ 97 Gb/s)과 낮은 레이턴시(8 B 메시지 기준 300‑400 ns)를 제공한다.

라우팅은 최소·비최소 경로를 모두 고려한 적응형 라우팅이다. 각 스위치는 최대 4개의 후보 경로에 대해 출력 포트의 요청 큐 깊이(혼잡도)를 수집하고, 경로 길이와 혼잡도를 가중치로 결합해 최적 경로를 선택한다. 혼잡 정보는 칩 내부 링과 ACK 패킷에 포함된 4바이트 메타데이터로 전파된다. 비최소 경로 사용이 늘어나면 평균 홉 수가 증가하지만, 적응형 라우팅은 최소 경로를 우선 선택하도록 편향을 두어 전체 지연 상승을 억제한다.

혼잡 제어는 엔드포인트 혼잡과 중간 혼잡을 구분한다. 중간 혼잡은 적응형 라우팅으로 회피 가능하지만, 엔드포인트 혼잡(특히 마지막 홉)에서는 모든 경로가 영향을 받는다. 슬링샷은 요청‑전송·전송‑허가 흐름 제어와 엔드‑투‑엔드 ACK 기반의 혼잡 윈도우 조절을 결합해, 다중 워크로드가 동시에 실행될 때도 네트워크 노이즈를 최소화한다. 실험에서는 RoCE v2 기반의 표준 100 Gb/s NIC를 사용했음에도 불구하고, 기존 Cray Aries 대비 30 % 이상 낮은 지연 변동과 2배 이상의 스루풋을 기록했다.

Ethernet 호환성 측면에서 슬링샷은 표준 MAC/PCS/LLR 레이어를 유지하면서, 스위치‑스위치 간에 전용 슬링샷 프로토콜을 삽입한다. 이를 통해 기존 데이터센터 장비와의 인터페이스는 그대로 유지하면서, HPC 워크로드에 필요한 저지연·저오버헤드 전송을 구현한다. 다만, 현재 실험에서는 완전한 슬링샷 전용 Ethernet 기능을 활용하지 못했으며, 향후 전용 NIC와의 결합 시 성능 향상이 기대된다.

전력 효율성은 64포트당 250 W라는 수치가 제시되었지만, 전체 시스템 규모(수천 대의 스위치)에서의 총 전력 소비와 냉각 비용을 고려하면 추가적인 최적화가 필요하다. 또한, 복잡한 타일‑버스 구조는 설계·검증 비용을 상승시킬 가능성이 있다. 전반적으로 슬링샷은 고레디스 스위치와 드래곤플라이 토폴로지를 결합해, 대규모 HPC·AI·데이터센터 환경에서 낮은 레이턴시와 높은 혼잡 내성을 제공하는 혁신적인 솔루션이라 평가할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기