협동 게임 기반 레이어별 혼합 정밀도 양자화 CoopQ

협동 게임 기반 레이어별 혼합 정밀도 양자화 CoopQ
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoopQ는 LLM의 레이어를 협동 게임의 플레이어로 보고, Shapley 값으로 레이어 민감도와 레이어 간 상호작용을 추정한다(SPQE). 이를 바탕으로 2비트·4비트 할당을 이진 이차 최적화로 변환하고, MILP로 전역 최적 비트 배치를 찾는다. Llama‑3, Gemma‑2, Qwen‑3 모델을 다양한 PTQ 백엔드에서 실험한 결과, 평균 2~4비트 구간에서 기존 방법 대비 퍼플렉시티를 20‑80 % 감소시켰다.

상세 분석

CoopQ 논문은 대규모 언어 모델(LLM)의 메모리·연산 비용을 낮추기 위한 혼합 정밀도 양자화(Mixed‑Precision Quantization) 문제를 ‘협동 게임’으로 재정의한다. 기존 연구는 레이어별 분포, 코사인 유사도, 1차·2차 민감도 등 독립적인 지표에 의존해 비트 폭을 할당했으며, 레이어 간 양자화 오차 전파를 무시한다는 한계가 있었다. 이 논문은 두 가지 핵심 기여를 제시한다. 첫째, Shapley‑based Progressive Quantization Estimation(SPQE)이다. 레이어를 ‘플레이어’로 두고, 전체 모델을 중간 정밀도(예: 4‑bit)로 초기 양자화한 뒤, 무작위 순열에 따라 하나씩 2‑bit으로 낮추는 과정을 반복한다. 각 단계에서 NLL(음성 로그우도)의 변화량을 기록해 해당 레이어의 한계 기여(마진)를 계산하고, 모든 순열에 대해 평균을 취해 Shapley 값을 추정한다. 이 방식은 급격한 프루닝이 초래하는 성능 급락과 높은 분산을 피하고, 레이어 간 상호작용까지 포착한다는 점에서 기존 Monte‑Carlo Shapley 추정보다 효율적이다. 둘째, 이 Shapley 값과 그 변동성을 이용해 레이어 간 상호작용 행렬 K를 구성하고, 이를 이진 이차 최적화 문제로 변환한다. 목표는 2‑bit(저정밀)과 4‑bit(고정밀) 중 하나를 선택해 전체 손실 증가 ΔL≈aᵀq+qᵀKq를 최소화하면서 메모리 제한 B를 만족하도록 하는 것이다. q_i∈{0,1}은 레이어 i가 저정밀이면 1, 고정밀이면 0을 의미한다. K는 Shapley 값의 공분산을 기반으로 하며, 하이퍼파라미터 α를 통해 대각선 축소(diagonal shrinkage)로 노이즈를 억제한다. 이진 이차식은 표준 선형화 기법(y_ij≥q_i+q_j−1 등)을 적용해 MILP 형태로 변환하고, SCIP 같은 상용·오픈소스 MILP 솔버로 전역 최적 해를 얻는다.

실험에서는 Llama‑3(3.2B·8B), Gemma‑2(2B·9B), Qwen‑3(4B·8B) 모델을 선택하고, Quanto, HQQ, GPTQ 세 PTQ 백엔드와 동일한 그룹 사이즈·캘리브레이션 설정을 적용했다. SPQE는 Quanto의 빠른 인‑플레이스 양자화를 이용해 효율적으로 수행했으며, MILP는 A40 GPU 서버에서 SCIP 기본 설정으로 해결했다. 평가 지표는 WikiText‑2 검증 셋의 퍼플렉시티이며, 비트 평균을 4‑bit에서 2‑bit까지 단계별로 낮추면서 비교했다. 결과는 CoopQ가 모든 모델·백엔드 조합에서 기존 레이어별 민감도 기반(LM‑MQ, LLM‑MQ 등) 혹은 2차 Hessian 기반(HAWQ) 방법보다 퍼플렉시티 감소율이 20 %에서 80 %까지 크게 앞섰으며, 특히 2‑bit 평균 정밀도에서 차이가 극대화되었다. Ablation 연구에서는 샘플링 순열 수(M)와 α 값이 성능에 미치는 영향을 분석했으며, 적절한 M(≈200~500)과 α=0.5가 가장 안정적인 Shapley 추정과 최적 비트 배치를 제공한다는 결론을 얻었다.

이 논문은 (1) 양자화 과정 자체를 게임‑이론적 프레임워크에 매핑해 레이어 간 상호작용을 정량화, (2) Shapley 값 기반의 저‑분산 추정법을 제안, (3) 이 정보를 이진 이차 최적화·MILP로 변환해 전역 최적 비트 할당을 실현함으로써, 기존의 ‘독립적 레이어 평가’ 패러다임을 근본적으로 전복한다는 점에서 의미가 크다. 또한, SPQE와 CoopQ는 PTQ 백엔드와 모델 규모에 독립적이며, 메모리·연산 제한이 엄격한 엣지 디바이스에서도 실용적인 양자화 전략을 제공한다는 실용적 가치를 갖는다.


댓글 및 학술 토론

Loading comments...

의견 남기기