분산 시스템을 위한 최소제곱 근사와 적응형 라소 추정

본 논문은 마스터‑워커 구조의 분산 환경에서 단 한 번의 통신만으로 전역 최적 추정량과 동일한 통계적 효율성을 갖는 최소제곱 근사(DLSA) 방법을 제안한다. 로컬 추정치와 그 공분산을 이용해 가중 평균을 수행하고, 마스터 노드에서 적응형 Lasso(LARS)와 새롭게 설계한 DBIC를 적용해 변수 선택까지 수행한다. 이론적 증명과 52 GB 항공 데이터 실험을 통해 통신 비용·계산 시간·메모리 사용량 모두에서 기존 방법을 크게 능가함을 확인하…

저자: Xuening Zhu, Feng Li, Hansheng Wang

1. 서론 현대 데이터 과학에서는 수십 기가바이트에서 페타바이트 규모까지 확장되는 데이터셋을 단일 머신에서 처리하기 어렵다. 따라서 데이터는 여러 컴퓨팅 노드에 분산 저장되고, 마스터‑워커 형태의 클러스터 시스템(Hadoop, Spark)에서 분석이 수행된다. 이때 가장 큰 제약은 “통신 비용”이며, 특히 반복적인 통신을 요구하는 전통적인 분산 최적화(예: 분산 Newton, ADMM)는 실시간 분석에 부적합하다. 기존 연구는 (i) One‑Shot(단일 라운드) 접근법과 (ii) 다라운드 반복 접근법으로 크게 나뉘지만, 전자는 통계 효율이 낮고 후자는 통신 부담이 크다. 2. 문제 정의 및 모델 전체 데이터 집합을 N개의 관측치 Z_i=(X_i, Y_i) 로 두고, 이를 K개의 워커에 균등하게(또는 이질적으로) 분산한다. 각 워커 k는 n_k개의 샘플을 보유하며, 로컬 손실 L_k(θ)=n_k^{-1}∑_{i∈S_k}ℓ(θ;Z_i) 를 최소화해 로컬 추정치 θ̂_k와 공분산 Σ̂_k를 얻는다. 전역 손실 L(θ)=N^{-1}∑_{i=1}^Nℓ(θ;Z_i) 의 최소화는 전통적인 MLE와 동일하지만, 전체 데이터를 한 번에 접근할 수 없기 때문에 직접 계산이 불가능하다. 3. Distributed Least Squares Approximation (DLSA) 저자들은 전역 손실을 각 워커의 로컬 추정치를 중심으로 2차 테일러 전개하여 \

분산 시스템을 위한 최소제곱 근사와 적응형 라소 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기