통신 효율을 높인 블록별 모멘텀 SGD와 오류 피드백 기법

본 논문은 파라미터 서버 환경에서 양방향(업로드·다운로드) 그래디언트 압축과 오류 피드백을 결합한 분산 SGD(및 Nesterov 모멘텀 버전)를 제안한다. 그래디언트를 블록 단위로 1‑bit 부호와 스케일링 팩터만 전송하는 블록별 압축기를 설계해 약 32배 통신량을 절감하면서, 비볼록 문제에 대해 O(1/√(M·T)) 수렴 속도를 이론적으로 입증한다. 실험에서는 ImageNet‑ResNet을 7대 워커에서 학습시, 전체 정밀도 모멘텀 SGD와…

저자: Shuai Zheng, Ziyue Huang, James T. Kwok

본 논문은 대규모 분산 딥러닝 학습에서 통신 비용이 확장성을 제한하는 주요 요인이라는 점에 착안한다. 기존 연구들은 그래디언트 **희소화(sparsification)** 혹은 **양자화(quantization)** 를 통해 전송량을 줄였지만, 각각의 한계가 존재한다. 희소화는 중요한 차원만 선택해 전송하지만, 선택 과정이 복잡하고 압축 손실이 커질 수 있다. 양자화는 비트 수를 감소시키지만, 특히 1‑bit signSGD는 대규모 미니배치와 대칭 잡음이라는 비현실적 가정 없이는 수렴이 보장되지 않는다. 이에 저자들은 **두‑방향 압축(two‑way compression)** 과 **오류 피드백(error‑feedback, EF)** 을 결합한 새로운 프레임워크를 제안한다. 파라미터 서버 구조를 가정하고, 워커 → 서버와 서버 → 워커 양쪽 모두에서 동일한 압축 연산 C(·)를 적용한다. 압축으로 인한 손실은 각 측에서 **잔차 벡터(e_t,i, \tilde e_t)** 로 저장하고, 다음 라운드에 보정된 그래디언트(p_t,i)와 함께 재사용한다. 이 메커니즘은 MEM‑SGD, EF‑SGD와 유사하지만, 다중 워커 환경에서도 동일하게 동작하도록 설계되었다. 수학적 모델링에서는 기대 위험 함수 F(x)=E_ξ

통신 효율을 높인 블록별 모멘텀 SGD와 오류 피드백 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기