대규모 GPU 클러스터를 위한 장애 내성 하이브리드 데이터 병렬 학습
초록
FT‑HSDP는 10만 GPU 규모의 LLM 학습에서 동기식 훈련이 초래하는 빈번한 장애와 긴 복구 시간을 최소화한다. 데이터‑병렬 복제본을 장애 복구 단위로 삼아, 실패한 복제본만 재시작하고 나머지는 계속 학습한다. CPU‑주도 Fault Tolerant All‑Reduce와 비블로킹 캐치‑업 프로토콜을 도입해 복구 지연을 10분에서 3분으로 줄이고, 실제 모델 정확도에는 영향을 주지 않는다.
상세 분석
본 논문은 100 K 규모 GPU 클러스터에서 대형 언어 모델을 학습할 때 발생하는 장애 복구 비용을 정량적으로 분석하고, 이를 해결하기 위한 새로운 병렬 학습 프레임워크 FT‑HSDP(Fault Tolerant Hybrid‑Shared Data Parallelism)를 제안한다. 기존의 완전 동기식 학습은 모든 GPU가 동시에 정상이어야 진행되므로, 100 K GPU 환경에서는 평균 18분마다 하나의 장애가 발생하고, 복구에 10분이 소요돼 실제 학습 효율이 44 %에 불과했다. FT‑HSDP는 HSDP(Hybrid‑Shared Data Parallelism)의 복제 구조를 활용해 각 복제본을 독립적인 장애 복구 단위로 만든다. 장애가 발생하면 해당 복제본만 재구성하고, 나머지 복제본은 중단 없이 학습을 지속한다는 점이 핵심이다.
이를 구현하기 위해 두 가지 핵심 기술을 도입한다. 첫째, CPU가 복잡한 제어 로직(참가자 동적 추가·제거, 장애 유형 구분 등)을 담당하고 GPU가 실제 데이터 전송을 수행하는 Fault Tolerant All‑Reduce(FTAR) 프로토콜이다. 기존 NCCL은 모든 참여자를 초기화 시점에 고정하고 동적 재구성을 지원하지 않아 전체 재시작이 필요했지만, FTAR은 CPU‑GPU 협업으로 동적 토폴로지를 실시간으로 관리하면서도 NCCL 수준의 전송 성능을 유지한다. 둘째, 복구 중인 복제본이 최신 체크포인트를 로드하는 동안 다른 복제본은 계속 학습하도록 설계된 비블로킹 캐치‑업 프로토콜이다. 복구 복제본은 현재 스텝에서 ‘제로 그라디언트’를 전송해 전체 평균 모델 파라미터와 동기화하고, 체크포인트 전송은 피어‑투‑피어 방식으로 분산 로드밸런싱한다. 이 설계 덕분에 체크포인트 로드 시간을 수십 초 수준으로 압축하고, 전체 스톨 시간을 10분에서 3분으로 감소시켰다.
실험 결과는 98 K GPU 환경에서 FT‑HSDP가 동기식 대비 효율을 44 %→80 %로 향상시켰으며, 256 GPU 소규모 실험에서는 모델 정확도에 유의미한 차이가 없음을 확인했다. 또한 학습 중 발생하는 변동성을 완화하기 위해 제곱근 학습률 스케줄링을 적용했을 때 변동성이 크게 감소한다는 부가적인 발견도 제시한다.
논문은 또한 대규모 네트워크 토폴로지 설계(다중 데이터센터 RoCE 패브릭, AI Zone 기반 레이턴시 최적화)와 장애 원인 분석 파이프라인(통신‑레벨 텔레메트리 기반 빠른 원인 파악) 등을 상세히 기술해, 실무에서 100 K GPU 수준의 클러스터를 운영하고자 하는 엔지니어에게 실질적인 가이드라인을 제공한다. 전체적으로 FT‑HSDP는 대규모 분산 학습에서 장애 복구 비용을 구조적으로 낮추는 혁신적 접근으로, 향후 수십만 GPU 규모의 LLM 학습에 필수적인 설계 패턴이 될 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기