MixQuant: 블록 회전 기반 양자화의 한계 돌파와 질량 재분배

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 블록 하다마드 회전이 활성화 아웃라이어 억제에 미치는 영향을 이론적으로 분석하고, 사전 퍼뮤테이션을 통해 블록 간 ℓ₁ 질량을 균등화함으로써 블록 회전의 효율성을 유지하면서 정확도를 크게 향상시키는 MixQuant 프레임워크를 제안한다. 실험 결과 Llama‑3 1B 모델을 INT4로 양자화했을 때, 블록 크기 16에서 전체 벡터 회전 대비 90% 수준의 퍼플렉시티 복구를 달성한다.

상세 분석

본 연구는 먼저 활성화 벡터 X∈ℝᵈ에 대한 하다마드 회전 R의 효과를 정량화한다. 정의된 δ = ‖X‖₁/(d·‖X‖∞)는 ℓ₁ 질량이 최대값에 얼마나 고르게 퍼져 있는지를 나타내는 지표이며, Proposition 3.1에 의해 ‖XR‖∞ ≤ δ·√d·‖X‖∞가 성립한다. 즉, δ가 1/√d보다 작을 경우 회전 후 최대값이 확실히 감소한다. 실제 LLM 활성화는 δ가 1/√d보다 큰 경우도 많지만, δ와 회전 후 범위 감소 비율 사이에 강한 양의 상관관계가 관찰되어 δ가 아웃라이어 억제 정도를 예측하는 실용적인 프록시임을 확인한다.

블록 회전의 경우, 각 블록 j에 대해 독립적인 하다마드 회전 R_b를 적용한다. Proposition 3.3은 블록별 ℓ₁ 질량이 고르게 분포될 때(즉, 각 블록의 δ_j가 비슷할 때) 전체 아웃라이어 억제가 최적화된다고 증명한다. Corollary 3.4와 Proposition 3.5는 블록 크기 b가 작아질수록 최악의 경우 ‖X ˜R‖∞가 증가할 확률이 높아짐을 보여, 블록 크기와 계산 비용 사이의 트레이드오프를 이론적으로 뒷받침한다.

이론적 통찰을 바탕으로 저자들은 “MassDiff”라는 탐욕적 질량 확산 알고리즘을 설계한다. 캘리브레이션 데이터에서 각 블록의 기대 ℓ₁ 노름을 추정하고, 이를 균등화하도록 퍼뮤테이션 행렬 P를 순차적으로 구성한다. 핵심 아이디어는 퍼뮤테이션이 회전 전 단계에서만 적용되고, 변환 후에는 퍼뮤테이션‑불변 영역(permutation‑equivariant region)에서 가중치와 결합해 인퍼런스 시 추가 연산을 발생시키지 않는다는 점이다. 트랜스포머의 레이어 정규화, 잔차 연결 등은 순열에 대해 불변성을 유지하므로, P를 해당 레이어의 가중치에 사전 병합할 수 있다.

실험에서는 Llama‑3 1B/3B, Qwen‑3 1.7B/4B 등 다양한 모델에 대해 블록 크기 b∈{16,32,128,512}를 적용하였다. INT4 양자화 시, 기존 블록 회전(퍼뮤테이션 없이)에서는 b=16일 경우 최대 46%의 퍼플렉시티 복구에 그쳤으나, MixQuant을 적용하면 동일 조건에서 90%에 달하는 복구율을 기록한다. 또한 b≥128에서는 거의 완전한 복구(>98%)를 달성하면서도 연산량은 전체 벡터 회전 대비 30~70% 수준으로 크게 감소한다. 이러한 결과는 이론적 분석이 실제 모델의 질량 분포와 일치함을 실증한다.

요약하면, 본 논문은 (1) 블록 하다마드 회전의 아웃라이어 억제 한계를 ℓ₁ 질량 분포라는 기하학적 관점에서 정량화하고, (2) 퍼뮤테이션 기반 질량 재분배를 통해 블록 구조의 한계를 극복하는 실용적 프레임워크를 제시하며, (3) 인퍼런스 오버헤드 없이 기존 모델에 적용 가능한 구현 방안을 제공한다는 점에서 포스트‑트레이닝 양자화 분야에 중요한 기여를 한다.

MixQuant: 블록 회전 기반 양자화의 한계 돌파와 질량 재분배

초록

상세 분석

댓글 및 학술 토론

의견 남기기