양자화된 대형 언어 모델을 위한 제로오더 미세조정
초록
본 논문은 메모리 사용량을 극단적으로 줄이기 위해, 4‑bit·2‑bit 양자화된 대형 언어 모델(LLM)에 제로오더 최적화(ZO)를 적용한 Quantized Zeroth‑order Optimization(QZO)를 제안한다. QZO는 가중치 자체가 아닌 양자화 스케일을 연속적으로 교란해 그래디언트를 추정하고, 방향성 미분값 클리핑(DDC)으로 추정 분산을 감소시켜 학습 안정성을 확보한다. 실험 결과, 4‑bit LLM을 24 GB GPU 하나에서 fine‑tuning 할 수 있으며, 16‑bit 전체 파라미터 미세조정 대비 18배 이상의 메모리 절감 효과를 보인다.
상세 분석
QZO는 기존 제로오더 최적화(MeZO)가 직면한 두 가지 근본적인 한계를 해결한다. 첫째, 양자화된 가중치는 이산값이므로 연속적인 교란을 가할 수 없으며, 연속적인 그래디언트를 그대로 적용하면 디퀀타이징·재퀀타이징 과정이 필요해 메모리와 연산 비용이 급증한다. 둘째, 제로오더 방식은 무작위 교란에 기반한 그래디언트 추정이므로 분산이 크고, 특히 양자화 스케일을 직접 업데이트할 경우 손실 표면이 급격히 변동해 학습이 불안정해진다.
이를 해결하기 위해 QZO는 “양자화 스케일(Δ)”을 연속적인 파라미터로 간주하고, 실제 양자화된 정수 가중치(θ̄)는 고정한다. 스케일에 ε·z(정규분포) 교란을 가해 양쪽 방향의 손실값 L(Δ+εz ⊙ θ̄)와 L(Δ−εz ⊙ θ̄)를 측정하고, 중앙 차분((L⁺−L⁻)/(2ε))·z 형태로 스케일에 대한 그래디언트를 추정한다. 이 과정은 SPSA와 동일한 수식이지만, 파라미터 공간이 스케일에 한정돼 메모리 오버헤드가 거의 없으며, 양자화된 가중치를 그대로 유지한다는 점이 핵심이다.
하지만 중앙 차분값 d는 노이즈에 민감해 급격히 큰 절댓값을 가질 수 있다. QZO는 이를 “방향성 미분값 클리핑(DDC)”으로 제어한다. d를 사전 정의된 임계값 C에 대해
댓글 및 학술 토론
Loading comments...
의견 남기기