AdaGradSelect 적응형 그래디언트 기반 레이어 선택으로 효율적인 소형 언어 모델 파인튜닝

초록

AdaGradSelect는 변환기 블록의 그래디언트 크기를 실시간으로 측정해 중요한 블록을 우선적으로 학습하도록 동적으로 선택하는 방법이다. 디리클레 기반 샘플링과 𝜖‑greedy 탐색을 결합해 초기에는 탐색과 활용을 균형 있게 진행하고, 이후 에폭에서는 활용에 집중한다. 실험 결과 GSM8K와 MATH 데이터셋에서 전체 파인튜닝에 근접한 성능을 유지하면서 학습 속도는 약 12% 빨라지고 GPU 메모리 사용량은 35% 감소했으며, LoRA(rank‑256)보다 평균 3% 높은 정확도를 보였다.

상세 요약

AdaGradSelect는 기존 파인튜닝 방식의 두 가지 한계를 보완한다. 첫째, 전체 파라미터를 업데이트하는 전통적 파인튜닝은 연산량과 메모리 요구가 커서 소형 모델에 적용하기 어렵다. 둘째, LoRA와 같은 PEFT 기법은 저차원 서브스페이스에 제한된 업데이트만 허용해 최적화 자유도가 감소한다. 논문은 변환기 블록별 그래디언트 노름이 모델 성능에 미치는 영향을 사전 실험을 통해 확인하고, 그래디언트가 큰 블록이 학습에 더 큰 기여를 함을 발견했다. 이를 기반으로 AdaGradSelect는 각 블록의 누적 업데이트 빈도를 디리클레 분포의 파라미터로 사용해 샘플링 확률을 동적으로 조정한다. 초기 단계에서는 𝜖‑greedy 전략을 적용해 일정 비율(𝜖)만큼 무작위 블록을 선택, 탐색을 보장한다. 에폭이 진행될수록 𝜖를 감소시켜 활용 비중을 높인다. 이러한 적응형 스케줄링은 학습 초기에 잠재적으로 중요한 블록을 놓치지 않으면서도, 후반부에는 이미 확인된 핵심 블록에 집중해 효율을 극대화한다. 실험에서는 Qwen2.5‑0.5B, LLaMA3.2‑1B, Phi4‑mini‑3.8B 모델에 대해 GSM8K와 MATH 두 벤치마크를 사용했으며, 전체 파인튜닝 대비 12% 빠른 학습 시간과 35% 적은 GPU 메모리 사용을 달성했다. 특히 GSM8K에서 LoRA(rank‑256) 대비 평균 3% 높은 정확도를 기록했으며, MATH에서는 거의 동일한 성능을 유지했다. 이는 그래디언트 기반 블록 선택이 파라미터 효율성을 크게 향상시키면서도 성능 손실을 최소화한다는 강력한 증거다. 또한, 디리클레 샘플링과 𝜖‑greedy의 결합은 탐색‑활용 트레이드오프를 수학적으로 정량화하고, 학습 진행 상황에 따라 자동으로 조정되는 메커니즘을 제공한다. 이러한 설계는 다른 모델 아키텍처나 태스크에도 일반화 가능성을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)