헷로 큐: 헤시안 조건을 통한 저비트 양자화 안정화 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 양자화 시 발생하는 “낮은 오류·높은 손실” 현상의 근본 원인을 헤시안 행렬의 고곡률 방향에 있다고 규명한다. 이를 해결하기 위해 가벼운 학습 가능한 회전‑압축 행렬을 가중치에 적용해 헤시안 스펙트럼을 평탄화하고 최대 고유값을 억제하는 HeRo‑Q 알고리즘을 제안한다. 구조 변경 없이 PTQ 파이프라인에 삽입 가능하며, Llama·Qwen 시리즈에서 W4A8 및 극한의 W3A16 설정 모두 기존 최첨단 방법(GPTQ, AWQ, SpinQuant)을 능가한다.

상세 분석

HeRo‑Q는 LLM 양자화에서 “low‑error, high‑loss” 패러독스를 헤시안 행렬의 스펙트럼 불균형으로 설명한다. 기존 PTQ는 전체 양자화 오차를 최소화하려 하지만, 헤시안의 몇몇 고곡률(큰 고유값) 방향에 작은 노이즈가 투사되면 손실이 급격히 상승한다. 논문은 이를 정량화하기 위해 두 가지 핵심 수식을 제시한다. 첫 번째는 정량적 상한인 ∆L ≤ ½ λ_max ‖δ‖² ≤ ½ ‖δ‖² B(α) 로, 여기서 B(α)는 대각 스무딩 파라미터 α에 의해 조정되는 스펙트럼 서브바운드이다. 두 번째는 α∈

헷로 큐: 헤시안 조건을 통한 저비트 양자화 안정화 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기