딥러닝을 위한 헤시안 프리 최적화 가속화: 암시적 L‑BFGS 프리컨디셔닝과 단계적 샘플링
본 논문은 대규모 음성 인식 DNN 학습에 사용되는 헤시안‑프리(HF) 최적화의 두 병목인(1) CG 반복 횟수와(2) 전체 데이터 사용량을 각각 L‑BFGS 기반 프리컨디셔닝과 점진적 데이터 샘플링 기법으로 완화한다. 유연한 CG(플렉시블 CG)를 도입해 비고정 프리컨디셔너를 안정적으로 적용하고, 초기에는 작은 데이터 배치를 사용하다가 학습 진행에 따라 기하급수적으로 샘플 크기를 늘린다. 50시간 BN과 300시간 SWB 실험에서 전체 학습 …
저자: Tara N. Sainath, Lior Horesh, Brian Kingsbury
본 연구는 딥 뉴럴 네트워크(DNN) 학습에 널리 사용되는 헤시안‑프리(Hessian‑free, HF) 최적화의 효율성을 두 가지 관점에서 개선한다. 첫 번째는 CG(Conjugate Gradient) 반복 횟수를 감소시키는 프리컨디셔닝이며, 두 번째는 전체 데이터 사용량을 단계적으로 늘리는 샘플링 전략이다.
1. **배경 및 문제점**
HF 최적화는 손실 함수의 2차 근사 L(θ+d)≈L(θ)+∇L(θ)^Td+½d^TB(θ)d 를 이용해 최적화 방향 d를 구한다. 여기서 B(θ)는 일반적으로 Gauss‑Newton 행렬 G(θ)에 다항식 λI 를 더한 형태이며, 직접 행렬을 구성하지 않고 행렬‑벡터 곱만을 통해 CG를 사용해 근사해를 구한다. 기존 구현에서는 (a) CG 반복이 많아 학습 시간의 대부분을 차지하고, (b) 그라디언트와 CG‑벡터 연산에 고정된 데이터 샘플(전체 데이터 대비 약 1%)을 사용해 데이터 접근 비용이 비효율적이다.
2. **L‑BFGS 기반 프리컨디셔닝**
L‑BFGS는 최근 m 개의 단계 s_i 와 잔차 y_i 를 저장해 저차원 근사 헤시안을 구성한다. 이 근사는 대칭 양정이며, CG 반복 중에 프리컨디셔너 M = H_LBFGS 로 사용될 수 있다. 그러나 전통적인 CG는 프리컨디셔너가 고정돼야 한다는 전제가 있어, 매 반복마다 업데이트되는 L‑BFGS 프리컨디셔너를 직접 적용하면 수렴이 보장되지 않는다. 이를 해결하기 위해 저자는 ‘플렉시블 CG(Flexible CG)’를 채택한다. 플렉시블 CG는 프리컨디셔너가 변해도 Polak‑Ribiére 형태의 업데이트를 사용해 안정적인 수렴을 유지한다. 실험에서는 CG 반복 횟수가 평균 20% 이상 감소했으며, 전체 HF 이터레이션당 소요 시간이 크게 단축되었다.
3. **점진적 데이터 샘플링**
두 번째 개선점은 그라디언트와 CG 연산에 사용되는 데이터 양을 초기에는 작게, 학습이 진행될수록 크게 하는 하이브리드 샘플링이다. 구체적으로, 초기 HF 이터레이션에서는 전체 데이터의 작은 비율(예: 5%)만을 사용해 그라디언트를 추정하고, 이후 매 k 이터레이션마다 샘플 크기를 α 배(α>1)씩 기하급수적으로 늘린다. 이는 기존 연구에서 제안된 분산량 기반 샘플링(분산 추정에 추가 비용 발생)과 달리 사전 정의된 스케줄만으로 구현이 가능해 오버헤드가 거의 없다. 초기 단계에서는 스토캐스틱 근사 덕분에 빠른 초기 수렴을, 후기 단계에서는 충분히 큰 샘플을 사용해 정확한 방향을 확보한다.
4. **실험 설정 및 결과**
- **데이터**: 50시간 영어 Broadcast News(BN)와 300시간 Switchboard(SWB) 두 규모의 음성 인식 코퍼스.
- **모델**: 기존와 동일한 DNN 구조, HF 최적화 기반 시퀀스 트레이닝.
- **비교**: 기본 HF(전체 데이터 그라디언트 + 고정 1% 샘플 CG) vs. 프리컨디셔닝 적용, 샘플링 적용, 그리고 두 기법을 동시에 적용한 경우.
**BN 실험**: 프리컨디셔닝만 적용해 CG 반복이 20% 감소, 전체 학습 시간이 1.3배 가속. 샘플링만 적용해 추가 15% 가속. 두 기법을 결합하면 전체 학습 시간이 약 1.5배 빨라졌으며, WER는 변동이 없었다.
**SWB 실험**: 대규모 데이터에서 프리컨디셔닝은 CG 반복을 25% 이상 감소시켰고, 샘플링은 초기 단계에서 큰 데이터 절감 효과를 보였다. 두 기법을 동시에 적용했을 때 전체 학습 시간이 2.3배 가속되었으며, 최종 WER는 기존과 동일하거나 미세히 개선되었다.
5. **의의 및 향후 과제**
- **프리컨디셔닝**: L‑BFGS를 동적으로 업데이트하면서도 플렉시블 CG를 사용해 안정성을 확보한 점은, 헤시안‑프리와 같은 암시적 2차 최적화에서 프리컨디셔너 설계에 새로운 방향을 제시한다.
- **샘플링**: 기하급수적 샘플 증가 스케줄은 복잡한 분산량 추정 없이도 스토캐스틱·배치 장점의 균형을 맞춘다. 이는 대규모 분산 학습 환경에서 데이터 입출력 비용을 크게 절감한다.
- **확장성**: 저자는 현재 실험이 음성 인식 DNN에 국한되었지만, 이미지·자연어 처리 등 다른 도메인에서도 동일한 원리가 적용될 수 있다고 기대한다. 또한, 프리컨디셔너로 L‑BFGS 외에 다른 저차원 근사(예: K‑FAC)와 결합하는 연구도 가능하다.
결론적으로, 이 논문은 헤시안‑프리 최적화의 두 핵심 병목을 효과적으로 완화함으로써, 대규모 DNN 학습에서 실질적인 시간 절감과 동일한 성능을 동시에 달성한 중요한 기여를 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기