점진적 압축으로 추론 능력을 유지하는 대형 언어 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 파라미터를 단계적으로 제거하고, 각 단계마다 가벼운 사후 학습을 수행하는 “Prune‑Tune Loop”(PTL) 방식을 제안한다. 뉴런·레이어 구조적 프루닝을 적용하고, 연속 사전학습 또는 강화학습으로 성능을 회복함으로써, 모델을 약 50 % 수준으로 압축하면서도 수학적 추론·코드 생성 등 다양한 벤치마크에서 원본과 동등한 정확도를 유지한다.

상세 분석

PTL은 기존 일괄 프루닝이 초래하는 급격한 성능 저하를 피하기 위해 “끓는 개구리” 메타포를 차용, 압축 과정을 다단계 미세조정 루프로 세분화한다. 각 반복 단계는 (1) 중복 추론 뉴런·레이어 식별, (2) 식별된 파라미터 제거, (3) 제거된 모델에 대한 회복 튜닝으로 구성된다. 중복 뉴런은 피드포워드(FFN) 구조 내에서 활성값 ‖Act_N‖이 사전 정의된 임계값 σ_neuron 이하인 경우로 정의하고, 레이어 중요도는 해당 레이어 입력·출력 임베딩 차이 ‖f_ℓ(h_{ℓ‑1})‑h_{ℓ‑1}‖₂가 σ_layer 이하인 경우로 판단한다. 이러한 정량적 기준은 추론 전용 입력 시퀀스(x)에 대해 계산되며, 셀프‑어텐션 파라미터는 구조적 제약과 파라미터 비중이 낮아 주 대상에서 제외한다.

프루닝 후 회복 단계에서는 두 가지 경로를 제공한다. 첫 번째는 체인‑오브‑생각(Chain‑of‑Thought, CoT) 데이터셋을 활용한 연속 사전학습으로, 모델이 추론 흐름을 재학습하도록 한다. 두 번째는 복잡한 수학 문제에 대한 보상 설계 없이 GRPO 기반 강화학습을 적용해 성능을 미세 조정한다. 이때 학습 비용을 최소화하기 위해 ZeRO‑Stage‑2, 그래디언트 체크포인팅 등 메모리 효율 기법을 병행한다.

실험은 Llama‑3‑8B, Qwen2.5‑7B, Gemma2‑9B 세 모델에 대해 수행되었다. PTL은 파라미터를 40 %~45 % 정도 감소시키면서 FLOPs를 30 % 이상 절감하고, GSM8K·Minerva Math·MA‑TH‑500 등 3개 수학 벤치마크에서 원본 대비 1 %~3 % 수준의 정확도 저하만을 보였다. 특히 Qwen2.5‑7B에 적용한 강화학습 회복은 다른 프루닝 기법이 0 %에 머무는 상황에서도 84 % 수준의 정확도를 유지하도록 만들었다. 코드 생성 벤치마크(MBPP)에서도 5 % 이하의 성능 감소와 2.5배 이상의 속도 향상을 달성했다.

PTL의 장점은 (1) 프루닝 전략과 회복 방법을 자유롭게 조합 가능, (2) 경량 사후 학습으로 전체 재학습 비용을 크게 낮춤, (3) 구조적 프루닝을 통해 실제 하드웨어 가속에 유리한 모델을 생성한다는 점이다. 한계점으로는 임계값 σ_neuron·σ_layer 설정이 데이터·모델에 민감하고, 현재는 주로 수학·코드 영역에 초점을 맞추어 일반적인 자연어 이해(NLU) 작업에 대한 영향은 추가 검증이 필요하다. 향후 연구에서는 자동 임계값 탐색, 멀티태스크 회복 전략, 그리고 프루닝‑튜닝 순환을 메타‑학습으로 최적화하는 방향을 제시한다.

점진적 압축으로 추론 능력을 유지하는 대형 언어 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기