리더 기반 확률적 경사 하강법으로 구현하는 효율적인 분산 딥러닝 학습

1. 서론 딥러닝 모델과 데이터 규모가 급증함에 따라 데이터 병렬 학습이 필수적이 되었다. 기존의 분산 SGD는 매 배치마다 모든 워커가 파라미터를 교환하거나 중앙 서버에 전송하는 방식으로, 통신 비용이 크게 증가한다. 또한, 큰 배치 학습은 일반화 성능 저하와 수렴 속도 감소를 초래한다. 이러한 문제를 해결하고자 Elastic Averaging SGD(EASGD)가 제안되었지만, 평균 파라미터를 기준으로 끌어당기는 방식은 (1) 원래 목적함수와 다른 정류점을 만들고, (2) 서로 다른 지역 최소점에 수렴하는 워커들을 평균으로 끌어당겨 수렴을 늦추며, (3) 대칭적인 비볼록 지형에서 ‘대칭의 저주’를 유발한다는 한계가 있다. 2. L(S)GD 알고리즘 설계 본 논문은 위 문제점을 극복하기 위해 ‘리더’ 개념을 도입한다. 각 워커는 현재 손실이 가장 낮은 워커(리더)의 파라미터를 목표점(z)으로 삼아, 일반적인 SGD 업데이트에 추가적인 교정 힘 λ(x_i−z) 를 적용한다. 단일 리더 설정에서는 업데이트 식이 x_i^{t+1}=x_i^{t}−η∇f_i(x_i^{t})−λ(x_i^{t}−z^{t}) 이며, λ는 하이퍼파라미터로 리더에 대한 끌어당김 강도를 조절한다. 다중 리더 확장은 실제 하드웨어 구조를 반영한다. n개의 노드(그룹) 각각에 l개의 워커가 존재하고, 각 그룹 내에서 가장 성능이 좋은 워커를 로컬 리더(˜x_j)라 정의한다. 전체 그룹 중 최상의 로컬 리더를 글로벌 리더(˜x)라 한다. 워커는 두 개의 교정 힘을 받는다: x_{j,i}^{t+1}=x_{j,i}^{t}−η∇f_{j,i}(x_{j,i}^{t})−λ(x_{j,i}^{t}−˜x_j^{t})−λ_G(x_{j,i}^{t}−˜x^{t}) 여기서 λ와 λ_G는 각각 로컬·글로벌 리더에 대한 끌어당김 강도이다. 통신 효율성을 위해 리더 파라미터만을 주기 τ(로컬)와 τ_G(글로벌)마다 브로드캐스트한다. 비동기 구현에서는 각 워커가 자체적으로 로컬 SGD를 수행하고, 총 반복 횟수가 τ 혹은 τ_G 배수에 도달하면 리더 업데이트와 파라미터 동기화를 수행한다. 이를 통해 느린 워커에 의한 대기 시간을 최소화하고, 네트워크 부하를 크게 감소시킨다. 3. 이론적 분석 강한 볼록성 가정 하에, 무편향 그라디언트 추정과 제한된 분산을 전제로 LSGD의 한 단계 기대 감소식을 도출한다. 핵심 결과는 E

리더 기반 확률적 경사 하강법으로 구현하는 효율적인 분산 딥러닝 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기