- Title: A Study of Network Congestion in Two Supercomputing High-Speed Interconnects
- ArXiv ID: 1907.05312
- 발행일: 2019-07-12
- 저자: Saurabh Jha, Archit Patke, Jim Brandt, Ann Gentile, Mike Showerman, Eric Roman, Zbigniew T. Kalbarczyk, William T. Kramer, Ravishankar K. Iyer
📝 초록
고속 인터커넥트에서의 네트워크 혼잡은 애플리케이션 실행 시간 성능 변화의 주요 원인이 됩니다. 최근 몇 년 동안 학계와 산업계는 네트워크 수준과 시스템 수준의 애플리케이션 배치, 매핑 및 스케줄링에 대한 혁신적인 접근 방식 개발에 큰 관심을 보여 왔습니다. 그러나 이러한 연구들은 실제 고속 인터커넥트 혼잡 특성을 대표하지 못하는 프록시 애플리케이션과 벤치마크를 기반으로 하고 있습니다. 이 간극을 해소하기 위해, 우리는 (a) 장기적인 현장 혼잡 캐릭터라이제이션 연구를 지원하기 위한 모니터링 및 분석용 엔드-투-엔드 프레임워크와 (b) 두 가지 다른 인터커넥트 기술을 사용한 페타스케일 시스템에서의 네트워크 혼잡에 대한 경험이라는 두 가지를 제시합니다: (i) 3-D 토러스 위상을 사용하는 Cray Gemini, (ii) DragonFly 위상을 사용하는 Cray Aries.
💡 논문 해설
**핵심 요약**: 이 논문은 고속 인터커넥트에서의 네트워크 혼잡을 연구하고, 이를 모니터링 및 분석하기 위한 프레임워크를 제시합니다. 특히, Cray Gemini와 Aries라는 두 가지 다른 인터커넥트 기술에 대한 실험 결과를 제공합니다.
문제 제기: 네트워크 혼잡은 애플리케이션의 실행 시간을 크게 변화시키는 주요 요인이지만, 이를 효과적으로 관리하는 방법에 대한 연구가 부족하였습니다. 대부분의 연구는 실제 상황을 대표하지 못하는 프록시 애플리케이션과 벤치마크를 사용하여 혼잡을 검증하고 있습니다.
해결 방안 (핵심 기술): 이 논문에서는 네트워크 혼잡 모니터링 및 분석을 위한 엔드-투-엔드 프레임워크를 제시합니다. 이를 통해 두 가지 다른 인터커넥트 기술, 즉 Cray Gemini와 Aries에 대한 실험 결과를 얻었습니다. 이 중 Aries는 DragonFly 위상과 적응형 라우팅을 사용하여 혼잡 관리를 개선하였습니다.
주요 성과: 실험 결과, Aries의 혼잡 시간은 Gemini보다 10배 이상 짧았습니다. 예를 들어, 혼잡 임계치가 15%일 때, Aries의 중앙값은 거의 0에 가깝지만, 99.9 퍼센타일 값은 약 1분이었고, Gemini는 400분이었습니다.
의미 및 활용: 이 연구는 네트워크 혼잡을 관리하고 최적화하는 데 중요한 기여를 하였습니다. 특히, 혼잡 시간을 감지하여 애플리케이션 실행을 더 효율적으로 스케줄링하거나 재맵핑할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
이 섹션에서는 Monet 도구를 이용하여 얻은 두 가지 결과에 대해 설명합니다.
- 라우팅 알고리즘의 혼잡에 미치는 영향 (Subsection 4.1 참조)
- 링크 대역폭의 이질성이 혼잡에 미치는 영향 (Subsection 4.2 참조)
라우팅 알고리즘의 영향
[[IMG_PROTECT_3]]
그림에서 서로 다른 혼잡 링크 지속 시간의 양자값을 볼 수 있습니다. 즉, 링크에 대한 PTS 값이 고정된 임계값($`PTS_{th}`$)보다 높은 지속 시간입니다. 이 그림으로부터 다음과 같은 통찰력을 얻을 수 있습니다.
드래곤플라이 위상과 적응형 라우팅의 사용은 Cray 인터커넥트 두 세대 사이에서 혼잡 관리를 개선하였습니다. Aries에 사용되는 드래곤플라이 위상은 전역 지름이 1 hop으로 낮아, 혼잡 링크의 백 프레스를 제한하는 데 도움을 줍니다. 또한 적응형 라우팅은 패킷이 더 길지만 덜 혼잡한 경로를 취할 수 있게 하여 최소 경로에서 발생하는 혼잡을 완화합니다.
[[IMG_PROTECT_3]]는 이러한 관찰에 대한 경험적 증거를 제공합니다. 모든 $`PTS_{th}`$ 임계값에 대해, Aries의 혼잡 링크 지속 시간은 Gemini보다 한 계수 적습니다. 예를 들어, 혼잡 임계치가 15% PTS로 고정되었을 때, 두 시스템 모두 중앙값이 거의 0에 가깝지만, 99.9 퍼센타일 지속 시간은 약 1분(Edison)이고, Blue Waters는 400분입니다. 그러나 Aries는 Gemini보다 긴 혼잡을 더 잘 관리하지만 네트워크 성능에 따른 애플리케이션 실행 시간의 변동성은 여전히 문제가 됩니다.
교통 측정을 통한 장시간 혼잡 감지가 랭크 재매핑이나 광대역 작업의 재스케줄링과 같은 개입을 가능하게 합니다. 두 시스템에서 $`PTS_{th} \le 20\%`$에 대한 99.9 퍼센타일 혼잡 링크 지속 시간은 1분 이상입니다.
이러한 장시간 혼잡은 실제 환경에서 감지 및 진단을 위한 더 큰 지연을 용인할 수 있게 합니다. 또한, 진단은 TopoMesh와 같은 도구에 의해 사용 가능한 피드백으로 변환될 수 있습니다. 이를 통해 MPI 랭크를 재매핑하거나 스케줄러가 광대역 작업을 다시 스케줄링하는 것이 가능합니다.
[[IMG_PROTECT_7]]
[[IMG_PROTECT_11]]
링크 대역폭 이질성의 영향
다양한 링크 유형(전기 및 광학 링크) 간의 링크 대역폭 이질성은 혼잡에 대한 취약성을 증가시킵니다.
[IMG_PROTECT_7], [IMG_PROTECT_7], [IMG_PROTECT_7]는 각각 Blue Waters에서 Cray Gemini 인터커넥트의 X, Y 및 Z 방향 링크에 대한 서로 다른 양자값에서 혼잡 링크 지속 시간을 보여줍니다. 그리고 [IMG_PROTECT_11], [IMG_PROTECT_11], [IMG_PROTECT_11]는 각각 Edison에서 Cray Aries 인터커넥트의 Green, Black 및 Blue 링크에 대한 서로 다른 양자값에서 혼잡 링크 지속 시간을 보여줍니다. Gemini에서는 $`\ge20\%`$ 이상의 더 높은 $`PTS_{th}`$ 임계값에서, X 방향의 링크가 Y, Z 방향 링크보다 더 오래 지속되는 혼잡을 보입니다. 마찬가지로 Aries에서는 광학 링크(Blue)가 전기 링크(Green과 Black)보다 더 짧고 덜 심각한 혼잡 폭발을 보입니다.