압축된 대형 언어 모델을 위한 미세조정 없이 정확도 회복하는 EoRA 기법
초록
EoRA는 압축된 LLM에 저‑랭크 보상 행렬을 추가해 미세조정 없이도 특정 태스크에서 정확도를 크게 회복한다. 압축 오류를 입력 활성화의 고유공간에 투사한 뒤 SVD로 저‑랭크 근사를 수행하고, 맞춤형 CUDA 커널로 추론 속도를 1.4배 가속한다.
상세 분석
본 논문은 사후 압축(양자화·프루닝)된 대형 언어 모델(LLM)의 정확도 저하 문제를 “맞춤형 보상(customized compensation)”이라는 새로운 과제로 정의한다. 기존 방법은 하드웨어가 지원하는 포맷(예: 2:4 스파시티, 정수 양자화)으로 제한돼 유연성이 떨어지며, SVD 기반 보상은 캘리브레이션 데이터를 활용하지 않아 태스크 특화 성능 회복에 한계가 있었다. EoRA는 이러한 한계를 극복하기 위해 두 단계의 핵심 아이디어를 제시한다. 첫째, 압축 오류 ΔW를 해당 레이어 입력 활성화 X의 공분산 행렬 X Xᵀ에 대한 고유분해(QΛQᵀ)를 이용해 고유공간 Q√Λ 로 투사한다. 이때 고유값 Λ는 각 채널의 중요도를 나타내어, 큰 고유값에 대응하는 오류 성분이 저‑랭크 근사에서 더 정확히 복원되도록 한다. 둘째, 투사된 오류 ΔW′에 대해 r‑rank SVD를 수행해 U′Σ′V′ᵀ를 얻고, 이를 B′=U′Σ′, A′=V′ᵀ 로 정의한다. 마지막으로 A′에 Q′⁻¹(=√Λ⁻¹Qᵀ)을 곱해 원공간으로 복원함으로써 최종 보상 행렬 A와 B를 얻는다. 이 과정은 전형적인 Eckart‑Young 정리를 그대로 적용할 수 있어 최적의 저‑랭크 근사를 보장한다.
EoRA는 백프로파게이션 없이 캘리브레이션 데이터(수십수백 샘플)만으로 몇 분 안에 모든 레이어에 적용 가능하다. 또한, 보상 행렬 자체를 양자화해 메모리 오버헤드를 최소화하고, 저‑랭크 행렬 곱셈과 기존 양자화 연산을 하나의 CUDA 커널에 융합함으로써 추론 시 1.01.4배의 속도 향상을 달성한다. 실험에서는 LLaMA3‑8B를 3‑bit 양자화·2:4 스파시티 프루닝 후 ARC‑Challenge, MathQA, GSM8K에서 각각 10.84 %, 6.74 %, 11.45 %의 절대 정확도 향상을 기록했으며, ZeroQuant‑V2와 같은 기존 SVD 기반 보상보다 2~3배 높은 회복률을 보였다. 또한, EoRA는 LoRA와 같은 파라미터 효율적인 미세조정 기법의 초기화 방법으로도 활용 가능해 추가 학습이 필요한 경우에도 이점을 제공한다.
요약하면, EoRA는 (1) 압축 오류를 태스크‑특화 고유공간에 정렬, (2) 고유값 기반 중요도 가중치를 통해 저‑랭크 근사의 효율성을 극대화, (3) 커스텀 커널로 실시간 추론 비용을 최소화하는 세 가지 혁신을 결합한다. 이는 하드웨어 제약에 얽매이지 않고 다양한 압축 비율·형식에 대해 즉시 정확도 회복을 가능하게 하며, 대규모 모델 배포 환경에서 비용‑성능 트레이드오프를 유연하게 조정할 수 있는 실용적인 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기