초고속 인터커넥트에서의 네트워크 혼잡 연구
📝 원문 정보
- Title: A Study of Network Congestion in Two Supercomputing High-Speed Interconnects
- ArXiv ID: 1907.05312
- 발행일: 2019-07-12
- 저자: Saurabh Jha, Archit Patke, Jim Brandt, Ann Gentile, Mike Showerman, Eric Roman, Zbigniew T. Kalbarczyk, William T. Kramer, Ravishankar K. Iyer
📝 초록 (Abstract)
고속 인터커넥트에서의 네트워크 혼잡은 애플리케이션 실행 시간 성능 변화의 주요 원인이 됩니다. 최근 몇 년 동안 학계와 산업계는 네트워크 수준과 시스템 수준의 애플리케이션 배치, 매핑 및 스케줄링에 대한 혁신적인 접근 방식 개발에 큰 관심을 보여 왔습니다. 그러나 이러한 연구들은 실제 고속 인터커넥트 혼잡 특성을 대표하지 못하는 프록시 애플리케이션과 벤치마크를 기반으로 하고 있습니다. 이 간극을 해소하기 위해, 우리는 (a) 장기적인 현장 혼잡 캐릭터라이제이션 연구를 지원하기 위한 모니터링 및 분석용 엔드-투-엔드 프레임워크와 (b) 두 가지 다른 인터커넥트 기술을 사용한 페타스케일 시스템에서의 네트워크 혼잡에 대한 경험이라는 두 가지를 제시합니다: (i) 3-D 토러스 위상을 사용하는 Cray Gemini, (ii) DragonFly 위상을 사용하는 Cray Aries.💡 논문 핵심 해설 (Deep Analysis)
This paper focuses on studying network congestion in high-speed interconnects and introduces an end-to-end framework for monitoring and analyzing such congestion. The research specifically examines two different interconnect technologies: Cray Gemini, which employs a 3-D torus topology, and Cray Aries, using the DragonFly topology. The main issue addressed is that most studies on network congestion management rely on proxy applications and benchmarks that do not accurately represent real-world conditions. To tackle this, the paper presents an empirical study leveraging the Monet tool to analyze field-congestion data.The key findings show significant improvements in congestion control with Aries compared to Gemini due to its use of adaptive routing and a low global diameter (one hop) in DragonFly topology. The results indicate that for every PTS threshold, the congested link duration in Aries is an order of magnitude less than in Gemini. For instance, at 15% PTS congestion threshold, while both systems have nearly zero median durations, the 99.9th percentile congestion duration for Edison (Aries) was about one minute versus 400 minutes for Blue Waters (Gemini). This improvement allows better management of long-term congestion but does not entirely eliminate runtime variability due to network performance.
The significance and practical applications of this research lie in its ability to diagnose long-duration congestion, which can lead to actionable insights for tools like TopoMesh. These insights facilitate the remapping of MPI ranks or rescheduling bully jobs, thereby optimizing application execution times under varying network conditions.