중요도 집중으로 프루닝 견고성 향상

중요도 집중으로 프루닝 견고성 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 프루닝 과정에서 발생하는 성능 저하를 완화하기 위해, 가중치 중요도를 재분배하는 새로운 프레임워크인 DenoiseRotator를 제안한다. 정규화된 중요도 점수의 정보 엔트로피를 최소화함으로써 중요도를 소수의 파라미터에 집중시키고, 이를 구현하기 위해 학습 가능한 직교 변환(orthogonal rotation)을 가중치 행렬에 적용한다. 이 방법은 기존 Magnitude, SparseGPT, Wanda와 같은 프루닝 기법과 플러그‑인 방식으로 결합 가능하며, LLaMA‑3, Qwen2.5, Mistral 등 다양한 모델에 50% 비구조적 및 2:4 반구조적 희소성 조건에서 적용했을 때 퍼플렉시티와 제로샷 정확도가 크게 개선됨을 실험적으로 입증한다.

상세 분석

DenoiseRotator는 프루닝 전 단계에서 파라미터 중요도 분포 자체를 변형한다는 점에서 기존 프루닝 연구와 근본적으로 차별화된다. 기존 방법들은 주로 가중치 절대값, 출력 민감도, 혹은 2차 테일러 근사에 기반한 중요도 점수를 계산하고, 이를 기준으로 낮은 점수의 파라미터를 제거한다. 그러나 이러한 접근은 사전 학습된 모델의 고정된 중요도 분포에 얽매여 있어, 특히 2:4와 같은 반구조적 희소성 제약 하에서는 선택 가능한 파라미터가 제한되어 성능 저하가 심각해진다.

논문은 먼저 중요도 점수를 확률 분포로 정규화하고, 그 엔트로피를 최소화하는 것이 중요도 집중을 촉진한다는 수학적 직관을 제시한다. 엔트로피는 확률 분포가 균등할수록 높아지며, 최소화될 경우 질량이 소수의 원소에 몰리게 된다. 이는 프루닝 시 제거되는 파라미터들의 총 중요도 합을 자연스럽게 감소시켜, 테일러 근사에 기반한 손실 예측을 더욱 정확하게 만든다.

구현 측면에서 저자들은 직교 변환 행렬 R₁, R₂를 각 Transformer 레이어와 어텐션 블록에 삽입한다. 직교 변환은 벡터의 노름과 내적을 보존하므로, 모델의 전반적인 출력은 변하지 않는다(컴퓨팅 불변성). 변환 후 가중치 행렬은 (W’ = R_1^{\top} W R_2) 형태가 되며, 입력도 동일하게 회전된다. 이렇게 회전된 가중치와 입력을 사용해 계산된 OBD(Optimal Brain Damage) 중요도는 (S’{ij}=|W’{ij}|^2 (X’X’^{\top})_{jj}) 로 표현되며, 직교 변환에 의해 중요도가 재분배되는 과정을 명시한다.

학습 단계에서는 원본 모델 파라미터와 입력을 고정하고, 오직 직교 행렬만을 최적화한다. 엔트로피 손실은 각 행·열 혹은 전체 행렬에 대해 정규화된 중요도 분포에 대해 계산되며, 행/열별 엔트로피를 합산해 최적화한다. 직교 행렬은 파라미터 수가 적고, 정규화된 형태(예: QR 분해)를 유지하면서 효율적으로 업데이트될 수 있다. 학습이 완료되면, 변환 행렬은 가중치에 병합(merge)되어 실제 모델 파라미터 수에 영향을 주지 않는다. 이후 기존 프루닝 알고리즘을 그대로 적용하면, 중요도가 집중된 소수 파라미터만이 남게 되므로, 동일한 희소도 비율에서도 성능 손실이 크게 감소한다.

실험 결과는 설득력 있다. LLaMA‑3‑70B 모델에 SparseGPT 기반 2:4 프루닝을 적용했을 때, DenoiseRotator는 퍼플렉시티 격차를 8.1 → 3.4 포인트(58% 감소)로 줄였으며, 비구조적 50% 프루닝에서도 유사한 개선을 보였다. Qwen2.5와 Mistral 시리즈에서도 제로샷 벤치마크(예: LAMBADA, PIQA)에서 평균 1.2~2.5%의 정확도 상승을 기록했다. 또한, 다양한 프루닝 기법과 조합했을 때 일관된 이득을 보였으며, 변환 행렬의 학습 비용은 전체 모델 파라미터 대비 미미한 수준이었다.

이 논문의 주요 기여는 (1) 프루닝 전 단계에서 중요도 분포 자체를 최적화하는 새로운 패러다임 제시, (2) 엔트로피 최소화를 통한 중요도 집중이라는 이론적 근거 제공, (3) 직교 변환을 이용한 경량화된 구현으로 기존 프루닝 파이프라인에 손쉽게 통합 가능하게 함, (4) 다양한 모델·희소성 패턴에 대한 광범위한 실증을 통해 실제 적용 가능성을 입증한 점이다. 다만, 직교 변환이 모델 구조에 맞게 삽입될 수 있는 전제(예: RMSNorm, 잔차 연결)와 변환 학습을 위한 캘리브레이션 데이터의 품질에 따라 성능 차이가 발생할 수 있다는 제한점도 존재한다. 향후 연구에서는 비직교 변환이나 비선형 변환을 통한 중요도 재분배, 그리고 프루닝과 양자화를 동시에 최적화하는 다중 목표 학습으로 확장할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기