A100과 H100 GPU의 신뢰성 비교 분석: 대규모 AI 시스템에서의 내결함성 특성화

A100과 H100 GPU의 신뢰성 비교 분석: 대규모 AI 시스템에서의 내결함성 특성화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 1,056개의 A100 및 H100 GPU로 구성된 대규모 AI 시스템 ‘Delta’에서 2.5년간 수집된 1,170만 GPU 시간의 운영 데이터를 분석하여 GPU 신뢰성을 평가한다. 주요 결과로, H100 GPU 메모리의 평균 고장 간격(MTBE)이 A100 대비 3.2배 낮아 메모리 신뢰성이 더 취약하며, 증가된 메모리 용량에 대한 오류 복구 메커니즘이 부족함을 확인했다. 반면, GSP, NVLink 등 핵심 하드웨어 구성요소의 신뢰성은 H100에서 크게 개선되었다. 두 GPU의 오류 대부분은 애플리케이션 수준의 강력한 복구 메커니즘이 없어 작업 실패로 이어지며, 시스템 가용성을 유지하기 위해 약 5%의 과잉 프로비저닝이 필요할 것으로 예측된다.

상세 분석

이 연구는 NVIDIA의 두 세대 GPU 아키텍처인 Ampere(A100)와 Hopper(H100)의 신뢰성을 실증적 데이터를 통해 비교한 최초의 심층 분석이다. 가장 주목할 만한 발견은 H100의 HBM3 메모리가 A100의 HBM2e 메모리보다 단위 GPU당 평균 고장 간격(MTBE)이 3.2배 짧아, 상대적으로 취약하다는 점이다. 이는 H100의 메모리 용량(96GB)이 A100(40GB)보다 2.4배 크기 때문으로 추정된다. 용량 증가에 따른 물리적 메모리 셀 수의 증가가 고장률 상승으로 직접 연결된 것으로 보인다.

기술적 통찰로, H100은 메모리 행 재매핑(row remapping)과 같은 하드웨어 수준의 오류 복구 메커니즘으로 관측된 비정정 오류의 92%를 완화했으나, 이 메커니즘 자체가 증가한 메모리 용량과 더 빈번한 행 재매핑 요구를 충분히 수용하지 못하는 한계를 노정했다. 이는 향후 더 고용량 메모리를 탑재할 GPU 설계에 중요한 시사점을 제공한다.

반면, H100은 GSP(GPU System Processor), PMU SPI, NVLink 인터커넥트 등 핵심 하드웨어 구성요소의 신뢰성에서 A100 대비 현저한 개선을 보였다. 특히 A100 시스템에서 작업 실패의 주요 원인이었던 GSP 및 PMU SPI 오류 전파가 H100에서는 거의 관찰되지 않았으며, 측정 기간 동안 NVLink 오류는 전혀 발생하지 않았다. 이는 드라이버 수준의 개선과 Grace CPU와의 긴밀한 통합(GH200 슈퍼칩)으로 인한 결과로 해석된다.

가장 근본적인 문제는 두 세대 GPU 모두에서 하드웨어 또는 메모리 오류 발생 시, 이를 애플리케이션 수준에서 효과적으로 복구할 수 있는 메커니즘이 부재하다는 점이다. MMU 및 NVLink 오류를 제외한 대부분의 오류는 거의 100% 작업 실패로 이어졌다. 이는 신뢰성 향상을 위한 노력이 단순 하드웨어 개선을 넘어 시스템 소프트웨어 스택 및 애플리케이션 프레임워크 차원의 복원력 메커니즘 도입이 시급함을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기