초고속 인터커넥트에서의 네트워크 혼잡 연구

읽는 시간: 4 분
...

📝 원문 정보

  • Title: A Study of Network Congestion in Two Supercomputing High-Speed Interconnects
  • ArXiv ID: 1907.05312
  • 발행일: 2019-07-12
  • 저자: Saurabh Jha, Archit Patke, Jim Brandt, Ann Gentile, Mike Showerman, Eric Roman, Zbigniew T. Kalbarczyk, William T. Kramer, Ravishankar K. Iyer

📝 초록 (Abstract)

고속 인터커넥트에서의 네트워크 혼잡은 애플리케이션 실행 시간 성능 변화의 주요 원인이 됩니다. 최근 몇 년 동안 학계와 산업계는 네트워크 수준과 시스템 수준의 애플리케이션 배치, 매핑 및 스케줄링에 대한 혁신적인 접근 방식 개발에 큰 관심을 보여 왔습니다. 그러나 이러한 연구들은 실제 고속 인터커넥트 혼잡 특성을 대표하지 못하는 프록시 애플리케이션과 벤치마크를 기반으로 하고 있습니다. 이 간극을 해소하기 위해, 우리는 (a) 장기적인 현장 혼잡 캐릭터라이제이션 연구를 지원하기 위한 모니터링 및 분석용 엔드-투-엔드 프레임워크와 (b) 두 가지 다른 인터커넥트 기술을 사용한 페타스케일 시스템에서의 네트워크 혼잡에 대한 경험이라는 두 가지를 제시합니다: (i) 3-D 토러스 위상을 사용하는 Cray Gemini, (ii) DragonFly 위상을 사용하는 Cray Aries.

💡 논문 핵심 해설 (Deep Analysis)

This paper focuses on studying network congestion in high-speed interconnects and introduces an end-to-end framework for monitoring and analyzing such congestion. The research specifically examines two different interconnect technologies: Cray Gemini, which employs a 3-D torus topology, and Cray Aries, using the DragonFly topology. The main issue addressed is that most studies on network congestion management rely on proxy applications and benchmarks that do not accurately represent real-world conditions. To tackle this, the paper presents an empirical study leveraging the Monet tool to analyze field-congestion data.

The key findings show significant improvements in congestion control with Aries compared to Gemini due to its use of adaptive routing and a low global diameter (one hop) in DragonFly topology. The results indicate that for every PTS threshold, the congested link duration in Aries is an order of magnitude less than in Gemini. For instance, at 15% PTS congestion threshold, while both systems have nearly zero median durations, the 99.9th percentile congestion duration for Edison (Aries) was about one minute versus 400 minutes for Blue Waters (Gemini). This improvement allows better management of long-term congestion but does not entirely eliminate runtime variability due to network performance.

The significance and practical applications of this research lie in its ability to diagnose long-duration congestion, which can lead to actionable insights for tools like TopoMesh. These insights facilitate the remapping of MPI ranks or rescheduling bully jobs, thereby optimizing application execution times under varying network conditions.

📄 논문 본문 발췌 (Translation)

이 섹션에서는 Monet 도구를 이용하여 얻은 두 가지 결과에 대해 설명합니다. - 라우팅 알고리즘의 혼잡에 미치는 영향 (Subsection 4.1 참조) - 링크 대역폭의 이질성이 혼잡에 미치는 영향 (Subsection 4.2 참조)

라우팅 알고리즘의 영향

[[IMG_PROTECT_3]] 그림에서 서로 다른 혼잡 링크 지속 시간의 양자값을 볼 수 있습니다. 즉, 링크에 대한 PTS 값이 고정된 임계값($`PTS_{th}`$)보다 높은 지속 시간입니다. 이 그림으로부터 다음과 같은 통찰력을 얻을 수 있습니다.

  • 드래곤플라이 위상과 적응형 라우팅의 사용은 Cray 인터커넥트 두 세대 사이에서 혼잡 관리를 개선하였습니다. Aries에 사용되는 드래곤플라이 위상은 전역 지름이 1 hop으로 낮아, 혼잡 링크의 백 프레스를 제한하는 데 도움을 줍니다. 또한 적응형 라우팅은 패킷이 더 길지만 덜 혼잡한 경로를 취할 수 있게 하여 최소 경로에서 발생하는 혼잡을 완화합니다. [[IMG_PROTECT_3]]는 이러한 관찰에 대한 경험적 증거를 제공합니다. 모든 $`PTS_{th}`$ 임계값에 대해, Aries의 혼잡 링크 지속 시간은 Gemini보다 한 계수 적습니다. 예를 들어, 혼잡 임계치가 15% PTS로 고정되었을 때, 두 시스템 모두 중앙값이 거의 0에 가깝지만, 99.9 퍼센타일 지속 시간은 약 1분(Edison)이고, Blue Waters는 400분입니다. 그러나 Aries는 Gemini보다 긴 혼잡을 더 잘 관리하지만 네트워크 성능에 따른 애플리케이션 실행 시간의 변동성은 여전히 문제가 됩니다.

  • 교통 측정을 통한 장시간 혼잡 감지가 랭크 재매핑이나 광대역 작업의 재스케줄링과 같은 개입을 가능하게 합니다. 두 시스템에서 $`PTS_{th} \le 20\%`$에 대한 99.9 퍼센타일 혼잡 링크 지속 시간은 1분 이상입니다. 이러한 장시간 혼잡은 실제 환경에서 감지 및 진단을 위한 더 큰 지연을 용인할 수 있게 합니다. 또한, 진단은 TopoMesh와 같은 도구에 의해 사용 가능한 피드백으로 변환될 수 있습니다. 이를 통해 MPI 랭크를 재매핑하거나 스케줄러가 광대역 작업을 다시 스케줄링하는 것이 가능합니다.

[[IMG_PROTECT_7]] [[IMG_PROTECT_11]]

링크 대역폭 이질성의 영향

다양한 링크 유형(전기 및 광학 링크) 간의 링크 대역폭 이질성은 혼잡에 대한 취약성을 증가시킵니다. [IMG_PROTECT_7], [IMG_PROTECT_7], [IMG_PROTECT_7]는 각각 Blue Waters에서 Cray Gemini 인터커넥트의 X, YZ 방향 링크에 대한 서로 다른 양자값에서 혼잡 링크 지속 시간을 보여줍니다. 그리고 [IMG_PROTECT_11], [IMG_PROTECT_11], [IMG_PROTECT_11]는 각각 Edison에서 Cray Aries 인터커넥트의 Green, BlackBlue 링크에 대한 서로 다른 양자값에서 혼잡 링크 지속 시간을 보여줍니다. Gemini에서는 $`\ge20\%`$ 이상의 더 높은 $`PTS_{th}`$ 임계값에서, X 방향의 링크가 Y, Z 방향 링크보다 더 오래 지속되는 혼잡을 보입니다. 마찬가지로 Aries에서는 광학 링크(Blue)가 전기 링크(GreenBlack)보다 더 짧고 덜 심각한 혼잡 폭발을 보입니다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키