고성능 슈퍼컴퓨터 네트워크 혼잡 현황 분석: Gemini와 Aries 비교

고성능 슈퍼컴퓨터 네트워크 혼잡 현황 분석: Gemini와 Aries 비교
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Cray Gemini(3‑D 토러스)와 Cray Aries(DragonFly) 두 차세대 인터커넥트를 실제 운영 환경에서 장기간 수집한 네트워크 혼잡 데이터를 기반으로 분석한다. Lightweight Distributed Metric Service(LDMS)와 Monet 진단 툴을 활용해 링크별 ‘시간당 정지 비율(Percent Time Stalled, PTS)’을 혼잡 지표로 정의하고, 라우팅 방식·링크 대역폭 이질성·장시간 정체 현상을 정량화한다. 결과는 DragonFly와 적응형 라우팅이 토러스 구조와 정적 라우팅에 비해 혼잡 지속 시간을 1‑2 오더 감소시키지만, 여전히 긴 정체가 발생해 어플리케이션 실행 시간 변동성을 야기함을 보여준다.

상세 분석

이 연구는 두 가지 핵심 기여를 제시한다. 첫째, LDMS를 이용해 Cray 시스템의 gpcdr 커널 모듈에서 제공하는 링크‑레벨 흐름 제어 카운터를 1 초(Aries)·60 초(Gemini) 간격으로 수집하고, 이를 중앙 저장소에 집계해 1주일 규모(≈7.7 TB, 370 GB)의 필드 데이터를 확보하였다. 둘째, 수집된 원시 데이터를 Monet이 전처리·특징 추출·머신러닝 기반 이상 탐지 파이프라인에 투입해 ‘Percent Time Stalled(PTS)’라는 혼잡 메트릭을 산출하였다. PTS는 크레딧 기반 플로우 제어에서 송신 측이 충분한 크레딧을 받지 못해 전송을 멈추는 시간 비율을 의미하므로, 네트워크 포화 상태를 직접적으로 반영한다.

분석에서는 PTS 임계값을 5 %~20 % 구간으로 설정하고, 해당 임계값을 초과한 링크가 지속된 시간을 백분위수(median, 99 th, 99.9 th)로 정량화했다. Gemini의 경우, X‑방향(9.4 GB/s) 링크가 Y·Z 방향에 비해 높은 대역폭 불균형과 정적 방향‑순 라우팅으로 인해 99.9 th 백분위수에서 약 400 분에 달하는 장시간 정체가 관찰되었다. 반면 Aries는 DragonFly 토폴로지와 적응형 라우팅 덕분에 동일 임계값에서 99.9 th 백분위수가 1 분 수준으로 크게 감소하였다. 그러나 99 th 백분위수는 여전히 수십 분에 이르며, 이는 실시간 진단·재배치(예: TopoMesh 기반 랭크 재맵핑)으로 완화할 여지가 있음을 시사한다.

또한, 전기·광 링크 간 대역폭 이질성이 혼잡 발생에 미치는 영향을 조사했다. Gemini에서는 전기 X‑링크(9.4 GB/s)와 광 Z‑링크(15 GB/s) 사이의 차이가 특정 방향에 병목을 유발했고, Aries에서는 광(Blue) 링크(1.56 GB/s)가 전기(Green, Black) 링크(1.75 GB/s)보다 짧고 가벼운 정체를 보였다. 이는 네트워크 설계 시 대역폭 균일성을 고려해야 함을 강조한다.

한계점으로는 샘플링 시계열 동기화 오류(노드 간 시간 스키우)와 PTS 임계값 선택이 결과에 민감하게 작용한다는 점, 그리고 1주일 데이터만으로 계절적·워크로드 변동성을 완전히 포착하기 어렵다는 점을 들 수 있다. 향후 연구에서는 다중 주기 데이터와 워크로드 특성(예: MPI 패턴) 연계 분석, 그리고 적응형 라우팅 정책의 실시간 피드백 메커니즘 구현이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기