분산 좌표 하강법을 이용한 일반화 선형 모델 학습

본 논문은 L1·L2 정규화를 포함한 일반화 선형 모델(GLM)의 대규모 학습을 위해 분산 환경에서 동작하는 새로운 알고리즘을 제안한다. 기존의 GLM 학습 방법은 대부분 전체 데이터를 메모리에 적재하고 단일 머신에서 좌표 하강법이나 L‑BFGS, TRON 등을 사용해 최적화를 수행한다. 그러나 피처와 샘플 수가 모두 급증하는 텍스트 마이닝, 클릭스트림 분석 등에서는 이러한 접근법이 메모리와 계산량의 한계에 부딪힌다. 따라서 데이터와 파라미터를 여러 노드에 분산시키는 방법이 필요하며, 데이터 분할 방식에 따라 ‘샘플 기반’과 ‘피처 기반’ 두 가지 접근이 존재한다. 저자들은 피처 기반 분할이 더 높은 병렬 효율성을 제공한다는 가설을 세우고, 이를 실현하기 위한 구체적인 알고리즘을 설계하였다. 알고리즘의 핵심은 다음과 같다. 먼저 전체 피처 집합 {1,…,p} 를 M개의 서로 겹치지 않는 블록 S₁,…,S_M 로 나누어 각 블록을 하나의 컴퓨팅 노드에 할당한다. 현재 모델 파라미터 β 에 대해 손실 L(β) 를 2차 테일러 근사 L_q(β,Δβ) 로 전개하고, 정규화 항 R(β) 를 그대로 유지한다. 이때 Hessian의 블록 대각 근사 eH(β) 를 사용해 각 노드가 독립적인 2차 서브문제(식 9)를 해결하도록 한다. 구체적으로 각 노드 m 은 자신의 피처 블록에 속하는 변수 Δβ_j (j∈S_m) 에 대해 식 (11)의 폐쇄형 업데이트 규칙을 적용한다. 여기서 µ≥1 은 신뢰 영역을 확대해 L1 정규화 시 희소성을 강화하고, ν>0 은 Hessian 근사가 양정정밀성을 유지하도록 보장한다. 모든 노드가 자신의 Δβ_m 을 계산하면, 중앙 서버 혹은 하나의 마스터 노드가 Δβ = Σ_m Δβ_m 을 집계한다. 이후 전역 라인 서치(알고리즘 3)를 수행해 스텝 사이즈 α∈(0,1] 를 결정한다. 라인 서치는 Armijo 조건을 만족하는 가장 큰 α 를 찾으며, 초기 α 를 목적함수 최소화에 의해 추정한다. 라인 서치 단계에서 α=1 이 자주 선택되도록 µ 를 동적으로 조정한다(알고리즘 1). 이는 라인 서치가 희소성을 해치지 않도록 하는 핵심 메커니즘이다. 수렴성은 블록 좌표 그래디언트 하강(CGD) 프레임워크에 기반한다. CGD는 부드러운 손실 L(β) 와 분리 가능한 정규화 R(β) 를 합한 목표함수를 최소화하기 위해, 매 iteration마다 페널티가 부여된 2차 근사 문제를 풀고, 라인 서치를 통해 충분한 감소를 보장한다. 논문은 H=µ(eH(β)+νI) 가 일정한 양의 고유값 구간

분산 좌표 하강법을 이용한 일반화 선형 모델 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기