동기식 SGD가 충분한가 비동기식보다 거의 최적에 가깝다
초록
본 논문은 이질적인 연산 지연을 고려한 분산 최적화 환경에서 동기식 SGD와 그 변형인 m‑동기식 SGD가 비동기식 방법에 비해 시간 복잡도 면에서 로그 수준의 차이만 존재한다는 이론적 근거를 제시한다. 고정·확률적 연산 시간 모델 모두에서 최적 비동기식 알고리즘의 하한과 거의 일치하는 상한을 보이며, 특정 확률 분포와 파워‑법칙 형태의 평균 지연에서도 표준 동기식 SGD가 거의 최적임을 증명한다.
상세 분석
논문은 먼저 전통적인 동기식 SGD가 모든 워커가 가장 느린 워커의 연산이 끝날 때까지 기다려야 하는 “버블” 현상 때문에 비동기식 방법보다 비효율적이라고 알려진 점을 재검토한다. 이를 극복하기 위해 제안된 m‑동기식 SGD는 매 반복마다 가장 빠른 m개의 워커만 사용해 평균적인 대기 시간을 크게 줄인다. 고정 연산 시간 모델(Assumption 2.2)에서는 각 워커 i가 τ_i 초를 소요한다고 가정하고, τ_1 ≤ … ≤ τ_n 순서대로 정렬한다. 이때 최적의 m을 선택하면 전체 시간 복잡도 T_sync = O(T_opt · log (n+1))을 달성한다는 정리 2.3을 증명한다. 여기서 T_opt은 비동기식 방법에 대한 알려진 하한식(2)과 일치한다.
다음으로 확률적 연산 시간 모델(Assumption 3.1)을 도입한다. 각 워커의 실제 연산 시간 (\bar τ_i)는 (τ_i, R)‑sub‑exponential 분포를 따르며, 평균 τ_i와 변동 폭 R을 갖는다. 정리 3.2는 m‑동기식 SGD의 기대 시간 복잡도가
(E
댓글 및 학술 토론
Loading comments...
의견 남기기