출력 정합성을 위한 레이어별 양자화 LoaQ

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LoaQ는 레이어‑와이즈 사후 훈련 양자화(PTQ)에서 각 서브‑블록의 출력까지 일치시키는 새로운 정규화·보정 기법을 제안한다. 선형 레이어와 잔차 연결·RMSNorm을 고려한 닫힌 형태의 업데이트 식을 통해 기존 GPTQ 기반 방법보다 낮은 오류와 높은 퍼플렉시티 성능을 달성한다.

상세 분석

본 논문은 “출력 근사화(output approximation)”라는 직관적 목표를 양자화 설계에 직접 반영한다는 점에서 기존 레이어‑와이즈 PTQ 연구와 차별화된다. 기존 방법들은 주로 가중치 근사(weight approximation)에 머물며, 입력 X만을 이용해 선형 레이어의 손실 L(Q)=‖X(Q−W)‖²_F 를 최소화한다. 그러나 이러한 로컬 최적화는 잔차 연결(residual connection)과 RMSNorm 같은 비선형 연산을 무시해 모델 전체 출력과의 불일치를 초래한다.

LoaQ는 이를 해결하기 위해 세 단계의 계층적 목표를 설정한다. 첫 번째 단계에서는 선형 레이어 출력 자체를 맞추기 위해 GPTQ 손실에 보정 항 C = Xᵀ(X′−X) 를 추가하고, H = XᵀX 의 역행렬을 이용해 (I+H⁻¹C)·W 로 가중치를 사전 변환한다. 두 번째 단계에서는 서브‑블록 전체 출력(잔차 연결 포함)을 목표로 삼아, h와 h′(양자화 전·후 은닉 상태)의 차이를 H⁻¹Xᵀ(h′−h) 로 보정한다. 세 번째 단계에서는 RMSNorm에 의해 정규화된 출력이 실제 다음 레이어에 전달된다는 점을 이용해, 정규화 연산 ρ(·) 를 근사화하고, 스케일링 연산 R(·) 를 분리해 동일한 형태의 선형 문제로 환원한다.

핵심 수식은
f_W = (I + αH⁻¹C)·W + β·H⁻¹XᵀΔh
이며, 여기서 α와 β는 과도한 보정으로 인한 수치 불안정을 완화하기 위한 튜닝 파라미터이다. α≈0.4~0.6, β≈1.0 일 때 실험적으로 최적 성능을 보인다. 이 업데이트는 GPTQ의 행‑열 순차 양자화와 완전히 호환되며, 기존 파이프라인에 최소한의 코드 변경만으로 적용 가능하다.

LoaQ는 또한 Hadamard 변환, NeUQI와 같은 최신 양자화 기법과 결합될 수 있다. 실험에서는 LLaMA‑2/3와 Qwen‑3 시리즈(7B~70B) 모델에 2‑bit·3‑bit 채널‑와이즈 양자화를 적용했으며, 퍼플렉시티와 5개 베엔치마크(ARC‑E, ARC‑C, PiQA, HellaSwag, Winogrande)에서 기존 GPTQ, Qronos, GPT‑AQ 대비 10%~30% 정도의 정확도 향상을 기록했다. 특히, 깊은 70B 모델에서는 잔차 경로에서 발생하는 누적 오류를 RMSNorm 정규화가 억제함을 확인했으며, LoaQ가 이 정규화 효과를 명시적으로 활용함으로써 깊은 네트워크에서도 안정적인 양자화를 달성한다는 점이 주목할 만하다.

요약하면, LoaQ는 (1) 선형 레이어 출력 보정, (2) 서브‑블록 전체 출력 정합, (3) 정규화된 출력 정합이라는 3단계 계층적 목표를 통해 기존 레이어‑와이즈 PTQ의 한계를 극복한다. 닫힌 형태의 보정식과 GPTQ와의 완전 호환성은 구현 비용을 최소화하면서도 양자화 품질을 크게 향상시키는 강점으로 작용한다.

출력 정합성을 위한 레이어별 양자화 LoaQ

초록

상세 분석

댓글 및 학술 토론

의견 남기기