WUSH LLM 양자화를 위한 최적 근접 적응형 변환

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM) 양자화 시 발생하는 극단적인 아웃라이어 문제를 해결하기 위해, 블록 단위의 데이터‑의존적 선형 변환을 닫힌 형태로 도출한다. Hadamard 회전과 데이터 기반 2차 모멘트 보정을 결합한 WUSH 변환은 부동소수점(FP) 양자화에 대해 최적, 정수(INT) 양자화에 대해 점근적으로 최적임을 증명하고, GPU에서 효율적인 fused 커널을 제공한다. 실험 결과 Llama‑3.1‑8B‑Instruct에서 W4A4 정확도가 기존 Hadamard 기반 방법보다 평균 2.8점 향상되고, FP4 매트멈을 이용해 BF16 대비 최대 6.6배의 처리량을 달성한다.

상세 분석

LLM을 저비트 양자화할 때 가장 큰 장애물은 가중치·활성값의 몇 개 극단적인 아웃라이어가 전체 동적 범위를 크게 늘려 양자화 스케일을 부풀리는 점이다. 기존 연구에서는 Hadamard 회전과 같은 고정된 직교 변환을 적용해 아웃라이어 에너지를 여러 채널에 고르게 분산시켰지만, 이러한 변환은 데이터 분포를 반영하지 못한다는 한계가 있었다. WUSH는 이러한 문제를 근본적으로 해결한다. 논문은 먼저 블록‑단위(크기 d가 2의 거듭제곱)로 가중치 행렬 W와 캘리브레이션 활성값 행렬 X를 정의하고, 양자화 손실 ℓ을 L2 노름 형태로 정형화한다. 이후 각 블록에 대해 두 번째 모멘트(공분산) 행렬을 Cholesky 분해하여 하삼각 행렬 W′, X′을 얻고, W′ᵀX′에 대해 SVD를 수행한다. 여기서 얻은 직교 행렬 U, V와 대각 행렬 S를 이용해 변환을

T_wush = H S^{‑½} Uᵀ W′ᵀ , T_xvsh = H S^{‑½} Vᵀ X′ᵀ

로 정의한다. H는 정규화된 Hadamard 행렬로, 데이터‑비의존적인 유일한 요소이며, S^{‑½}는 스케일을 정규화해 양자화 스케일을 최소화한다. 이 변환은 T_xvsh = T_wush^{‑⊤} 를 만족하므로 양쪽 변환이 서로 역관계에 있다. 논문은 이러한 형태가 FP 양자화(AbsMax‑scaled RTN) 하에서 손실을 정확히 최소화하고, INT 양자화에서는 차원 d가 커질수록 손실이 최적에 수렴함을 정리와 증명을 통해 보인다.

알고리즘 1은 실제 구현 흐름을 제시한다. 먼저 활성값의 공분산을 Hessian과 동일하게 추정하고, Cholesky 로 X′를 구한다. 이후 WᵀX′을 목표 출력 Y로 두고, 각 블록에 대해 SVD를 수행해 U, S, V를 얻는다. 변환 T_wush와 변환된 가중치  \bar{W}=H S^{½} Uᵀ 를 계산한 뒤, 선택적으로 GPTQ를 적용해 정밀한 정수 양자화를 수행한다. GPTQ와의 결합은 변환이 가중치 업데이트와 동시에 재계산되는 복잡성을 해결하기 위해 블록‑내·블록‑간 오류 전파를 명시적으로 분리한다. 최종 추론 단계에서는 변환된 가중치와 활성값에 대해 q(T_wush W)ᵀ q(T_xvsh X) 형태로 연산한다.

실험에서는 MXFP4(AbsMax‑scaled FP4)와 INT4 양자화 모두에서 Llama‑3.1‑8B‑Instruct, Llama‑2‑13B 등 다양한 모델을 테스트했다. Hadamard 단독 변환 대비 W4A4 정확도가 평균 2.8점(MXFP4‑RTN)·0.7점(MXFP4‑GPTQ) 향상됐으며, FP4 매트멈을 이용한 커스텀 GPU 커널은 BF16 대비 레이어당 최대 6.6배의 처리량을 기록했다. 또한, 변환 비용은 블록‑단위 Hadamard 구현과 거의 동일하게 유지돼 실시간 추론에 부정적 영향을 주지 않는다. 논문은 변환이 비정규화된 데이터에 대해 강인함을 보이며, 정규화된 Hadamard와 데이터‑의존적 스케일 보정이 결합될 때 최적에 가장 가깝게 수렴한다는 직관을 시각화(그림 1)와 수치 실험으로 뒷받침한다.

결과적으로 WUSH는 “데이터‑의존적 + Hadamard”라는 두 축을 결합해 기존 고정 변환의 한계를 극복하고, 이론적 최적성(부동소수점)과 실용적 최적성(정수) 모두를 동시에 만족하는 양자화 전처리 기법을 제공한다. 이는 양자화 후 미세조정 없이도 높은 정확도를 유지하면서, 하드웨어 가속을 극대화하려는 실무자와 연구자 모두에게 큰 의미를 가진다.

WUSH LLM 양자화를 위한 최적 근접 적응형 변환

초록

상세 분석

댓글 및 학술 토론

의견 남기기