VABFT 혼합 정밀도 딥러닝을 위한 분산 기반 적응 임계값

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

V‑ABFT는 행·열 체크섬을 이용한 ABFT 검증 과정에서 발생하는 부동소수점 누적 오차를 직접 모델링하고, 행·열 데이터의 평균·최대·최소만으로 분산을 추정해 O(n) 시간에 적응형 임계값을 계산한다. 실험 결과 BF16·FP16·FP32·FP64 전 범위에서 실제 라운딩 오차 대비 7‑20배(FP32/FP64)·48‑158배(BF16) 수준의 한층 긴밀한 임계값을 제공하며, 오탐지 없이 100 % 오류 탐지를 달성한다.

상세 분석

본 논문은 대규모 딥러닝 모델 학습·추론에서 핵심 연산인 행렬 곱셈에 ABFT(Algorithm‑Based Fault Tolerance)를 적용할 때, “임계값 결정”이라는 오래된 병목을 근본적으로 재설계한다. 기존 A‑ABFT는 베네프 법칙을 이용해 내적 오차의 확률분포를 추정했지만, 행·열 체크섬을 두 번 계산하는 과정에서 발생하는 누적 라운딩 오차를 과대평가해 실제 오류보다 160‑4200배 큰 임계값을 제시했다. V‑ABFT는 이러한 문제를 “검증 차이 E” 자체를 확률적 모델로 풀어낸다. 구체적으로, 행렬 A와 B를 각각 평균 μ와 표준편차 σ를 갖는 랜덤 변수로 분해하고, 각 행·열에 대해 α_k와 β_k(각 행의 평균·분산에 대한 집합) 를 정의한다. 이를 통해 E는 네 개의 항(편향, B‑변동, A‑변동, 상호작용)으로 전개되며, 각 항은 N·μ_A·μ_B, √N·μ_A·σ_B·β_k·b′_k, √K·σ_A·μ_B·α_k·a_mk, √(NK)·σ_A·σ_B·α_k·β_k·a_mk·b′_k 형태로 나타난다. 중요한 점은 이 네 항이 서로 독립적인 확률 변수로 가정될 수 있어 분산을 직접 합산할 수 있다는 점이다. 논문은 여기서 “극값‑분산 경계”(max‑min‑mean 기반)를 이용해 σ² ≤ (m‑μ)(μ‑l) 라는 간단한 부등식을 도입, O(n) 연산만으로 각 행·열의 분산 상한을 구한다. 이렇게 얻은 e_max(두 경로 간 최대 상대 라운딩 오차)와 신뢰계수 c_σ(≈2, 99 % 신뢰구간) 를 곱해 최종 임계값 T_bound = e_max·

VABFT 혼합 정밀도 딥러닝을 위한 분산 기반 적응 임계값

초록

상세 분석

댓글 및 학술 토론

의견 남기기