메모리 효율적인 LLM 파인튜닝을 위한 ESSAM: 진화 전략과 샤프니스 인식 최적화의 결합
초록
ESSAM은 진화 전략(ES)과 Sharpness‑Aware Maximization(SAM)을 결합한 제로‑오더 파인튜닝 프레임워크로, GSM8K 수학 추론 과제에서 PPO와 GRPO와 동등하거나 약간 높은 78.27% 정확도를 달성하면서 GPU 메모리 사용량을 PPO 대비 18배, GRPO 대비 10배 절감한다.
상세 분석
ESSAM은 기존 ES가 파라미터 공간을 무작위 교란으로 탐색하고 보상 기반으로 직접 업데이트하는 방식을 보완한다. 구체적으로 두 단계 업데이트를 도입한다. 첫 단계에서는 현재 파라미터 θₜ에 대해 보상 가중 평균 방향의 반대 방향으로 ρ·g/‖g‖ 형태의 샤프니스‑Aware 이웃점 θ_SAM을 만든다. 여기서 g는 보상‑노이즈 곱의 평균이며, 보상 정규화(z‑score)를 통해 스케일을 맞춘다. 두 번째 단계에서는 θ_SAM에서 다시 동일한 인구(N) 만큼의 가우시안 교란을 적용하고 보상을 평가한 뒤, 정규화된 보상 ˆr_SAM과 교란 ϵ_SAM을 이용해 원래 파라미터 θₜ를 최종 업데이트한다. 이 과정은 SAM이 평탄한 최소점으로 유도하는 효과와 동일하게 작동함을 이론적으로 증명한다(프로포지션 3.1).
메모리 절감은 ‘Seed Replay Eval’과 ‘Decomposed In‑place Update(DIPU)’ 알고리즘을 통해 구현된다. 각 교란에 대해 동일한 시드로 난수 생성기를 재설정하고, 파라미터를 제자리에서 교란·복원하면서 순전파만 수행한다. 역전파가 필요 없으므로 GPU 메모리 사용량은 ES 수준에 머무르며, RL 기반 PPO·GRPO가 요구하는 수백 기가바이트와는 큰 격차를 보인다.
실험에서는 Qwen‑2.5(0.5B7B)와 LLaMA‑3(1B8B) 총 7개 모델을 대상으로 GSM8K를 학습·평가하였다. 평균 정확도는 ESSAM 78.27%, 기존 ES 75.97%, PPO 77.72%, GRPO 78.34%로, ESSAM이 ES 대비 2.3%p, PPO 대비 0.55%p, GRPO 대비 0.07%p 향상하거나 동등한 성능을 보였다. 특히 3B 이하 모델에서 ESSAM이 PPO·GRPO를 앞섰으며, 대형 모델에서도 손실 없이 경쟁력을 유지했다. GPU 메모리 사용량은 평균 17.4 GiB(8B 모델 기준)로, PPO(≈314 GiB)·GRPO(≈174 GiB) 대비 각각 18배·10배 절감했다.
핵심 인사이트는 (1) 제로‑오더 탐색에 SAM을 도입하면 급격한 최소점(Sharp minima)으로 수렴하는 ES의 약점을 보완해 일반화 능력을 크게 향상시킬 수 있다. (2) 두 단계 이웃 탐색·업데이트 구조가 기존 ES보다 연산량은 약간 증가하지만, 역전파가 필요 없으므로 메모리 효율성은 유지된다. (3) 표준 데이터 셔플·미니배치 학습을 적용함으로써 작은 샘플에 의존하던 기존 ES의 불안정성을 해결하고, 실제 LLM 파인튜닝 파이프라인에 쉽게 통합할 수 있다.
한계점으로는 현재 GSM8K 단일 벤치마크에만 검증했으며, 복잡한 대화·코드 생성 등 다른 도메인에서의 성능이 미확인이다. 또한 인구 크기(N)와 노이즈 스케일(σ), ρ 등 하이퍼파라미터에 민감할 수 있어 자동 튜닝 기법이 필요하다. 마지막으로 제로‑오더 특성상 연산량(특히 대규모 모델에서의 샘플링)과 학습 시간은 RL 대비 늘어날 가능성이 있다.
전반적으로 ESSAM은 메모리 제약이 큰 오픈소스 커뮤니티나 저비용 클라우드 환경에서 LLM의 수학 추론 능력을 강화하는 실용적인 대안이며, 제로‑오더 최적화와 샤프니스 인식 기법의 시너지 효과를 입증한 중요한 연구이다.
댓글 및 학술 토론
Loading comments...
의견 남기기