분산 이중 좌표 최적화 프레임워크 DADM과 가속형 AccDADM

본 논문은 대규모 머신러닝에서 데이터가 여러 서버에 분산 저장되는 상황을 전제로, 정규화 손실 최소화 문제를 효율적으로 해결하기 위한 새로운 이중 최적화 프레임워크를 제시한다. 기존의 데이터 병렬(data parallelism) 접근법은 원본 손실 함수를 그대로 합산해 최소화하는 방식이지만, 이때 사용되는 전통적인 이중식은 변수 간 강한 결합(coupling) 때문에 분산 환경에서 직접 적용하기 어렵다. 이를 극복하기 위해 저자들은 추가적인 이중 변수 \( \beta \) 를 도입해 로컬 이중 변수 \( \alpha^{(\ell)} \) 와 전역 파라미터 \( w \) 를 완전히 분리하는 새로운 이중식(dual formulation)을 설계한다. 이 새로운 이중식은 각 머신이 자체 데이터에 대해 독립적으로 로컬 이중 목적을 최적화하도록 허용하면서, 전역 단계에서는 단 한 번의 통신으로 \( w \) 와 \( \beta \) 를 동기화한다. 이 구조를 기반으로 제안된 Distributed Alternating Dual Maximization(DADM) 알고리즘은 두 단계로 구성된다. 첫 번째 로컬 단계에서는 각 머신이 선택된 로컬 솔버(예: ProxSDCA, mini‑batch SDCA, 혹은 임의의 Θ‑근사 솔버)를 사용해 자신의 이중 변수 \( \alpha^{(\ell)} \) 를 업데이트한다. 이때 로컬 업데이트는 정확 최적화든 근사 최적화든 자유롭게 선택할 수 있어, 기존 CoCoA+가 제공하던 유연성을 그대로 유지한다. 두 번째 글로벌 단계에서는 모든 머신이 현재 로컬 변수들의 집합을 이용해 전역 파라미터 \( w \) 와 \( \beta \) 를 계산하고, 이를 모든 머신에 브로드캐스트한다. 이 과정은 한 번의 통신 라운드만 필요하므로, 통신 비용을 최소화하면서도 전역 모델 일관성을 보장한다. DADM의 핵심 이론적 기여는 새로운 이중식에 대한 수렴 분석이다. 저자들은 로컬 업데이트가 Θ‑근사일 경우에도 전체 목표 함수가 강하게 볼츠만(Strongly Convex)임을 이용해 선형 수렴률을 증명한다. 특히, 로컬 미니배치 크기 \( b \) 와 머신 수 \( m \) 에 대한 명시적인 복합 복잡도 식을 제시하여, 기존 방법이 제공하지 못했던 통신‑계산 트레이드오프를 정량화한다. 가속화된 버전인 Accelerated Distributed Alternating Dual Maximization(Acc‑DADM)은 Shalev‑Shwartz와 Zhang(2014)의 AccProxSDCA에서 영감을 받아 설계되었다. 핵심 아이디어는 매 글로벌 반복마다 더 강한 정규화 항을 포함한 보조 문제를 정의하고, 이를 Nesterov‑type 가중치 \( \theta \) 와 함께 해결함으로써 전체 수렴 속도를 \( O(\sqrt{\kappa}) \) 로 끌어올리는 것이다. 여기서 \( \kappa = L/\lambda \) 는 손실 함수의 스무스 상수 \( L \) 과 정규화 파라미터 \( \lambda \) 의 비율, 즉 조건수이다. 이 가속화 기법은 조건수가 큰 경우(예: \( \lambda \) 가 매우 작을 때)에도 통신 라운드 수와 전체 실행 시간을 크게 감소시킨다. 이론적 결과는 다음과 같이 요약된다. (1) DADM은 로컬 업데이트가 정확하거나 Θ‑근사일 때, 전체 이중 목표가 \( \epsilon \) 수준으로 감소하기 위해 필요한 통신 라운드 수가 \

분산 이중 좌표 최적화 프레임워크 DADM과 가속형 AccDADM

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기