Sinkhorn 정규화 기반 저비트 LLM 가중치 양자화

Sinkhorn 정규화 기반 저비트 LLM 가중치 양자화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 대형 언어 모델(LLM)의 가중치를 3‑4비트 정밀도로 양자화할 때 발생하는 퍼플렉시티 저하 문제를 해결한다. 기존의 보정‑free 균일 양자화는 이상치(outlier) 때문에 스케일 공유가 손상되지만, 저자는 행·열 각각에 스케일을 부여하고 Sinkhorn‑Knopp 알고리즘으로 행·열 표준편차를 정규화하는 “SINQ” 방식을 제안한다. 이를 통해 가중치 행렬 구조만으로 입력 활성화 스케일을 추정해 보정 없이도 활성화‑인식 양자화 효과를 얻으며, 다양한 모델(Qwen‑3, Llama 등)에서 퍼플렉시티를 50 % 이상 감소시키고 계산 오버헤드를 최소화한다.

상세 분석

SINQ는 기존 PTQ(post‑training quantization)에서 흔히 사용되는 단일 스케일(행 또는 열) 방식의 한계를 극복한다. 가중치 행렬 W∈ℝ^{m×n}에 대해 행 스케일 s∈ℝ^{m}와 열 스케일 t∈ℝ^{n}을 동시에 적용해 Ŵ = (W ⊘ s) ⊘ t 와 같이 변환한다. 이때 양자화는 Q = round(Ŵ) 형태로 진행되며, s와 t는 양자화 전후의 행·열 표준편차를 균등하게 맞추는 것이 목표이다.

핵심 아이디어는 “행·열 표준편차 정규화”를 Sinkhorn‑Knopp 스타일의 반복 알고리즘으로 수행한다는 점이다. 알고리즘은 로그‑스페이스에서 스케일을 업데이트하며, 각 반복마다 현재 스케일 적용 후 행·열 표준편차를 목표 표준편차 τ와 비교해 불균형 I(Ŵ) = max(max σ_row, max σ_col) / min(min σ_row, min σ_col) 를 최소화한다. 업데이트는 δ_row = log clamp(σ_row(Ŵ)/τ) 와 δ_col = log clamp(σ_col(Ŵ)/τ) 를 이용해 로그‑스케일 u, v에 누적한다. 최종적으로 최적의 u*, v를 지수화해 s = exp(u), t = exp(v*) 를 얻는다.

이 과정에서 중요한 발견은 “열‑표준편차의 역수”가 실제 입력 활성화 평균 μ_x와 높은 상관관계를 가진다는 점이다. 즉, 가중치 행렬 자체만 분석해도 각 열이 받는 입력 스케일을 추정할 수 있다(그림 2a). 그러나 단순히 1/σ_col 으로 스케일링하면 행‑쪽 이상치가 증가해 kurtosis가 크게 늘어나고 양자화 오차가 오히려 악화된다. SINQ는 행·열 표준편차를 동시에 조정함으로써 이러한 부작용을 억제한다(그림 2c).

또한 SINQ는 기존의 활성화‑인식 양자화(AWQ, SmoothQuant 등)와 결합이 용이하다. AWQ는 입력 스케일 μ_x 에 기반해 열 스케일을 최적화하는데, SINQ를 사전 정규화 단계에 삽입하면 행‑쪽 kurtosis 증가를 방지하면서 AWQ의 스케일 추정 정확도를 높인다. 이를 “ASINQ”라 명명하고 실험에서 추가적인 퍼플렉시티 감소를 확인했다.

실험에서는 Qwen‑3 시리즈(1.7B, 14B, 32B)를 중심으로 3‑bit·4‑bit 양자화를 수행했으며, WikiText‑2와 C4 데이터셋에서 기존 RTN, Hadamard+RTN, HQQ 대비 퍼플렉시티를 평균 15 %~30 % 개선했다. 메모리 사용량은 동일하거나 미미하게 증가했으며, 추가 연산은 행·열 스케일 곱셈 한 번 정도에 불과해 실제 추론 속도에 큰 영향을 주지 않는다. 또한 MoE, DeepSeek‑V3, Phi 등 다양한 아키텍처에서도 동일한 이점을 보였다.

SINQ의 장점은 (1) 레이어 간 상호 의존성이 없으며, (2) 별도 보정 데이터가 필요 없고, (3) 구현이 간단해 기존 PTQ 파이프라인에 바로 적용 가능하다는 점이다. 단점으로는 일부 모델에서 Q, K, V 등 여러 헤드가 동일한 열 스케일을 공유해야 하는 제약이 있어 약간의 정확도‑속도 트레이드오프가 존재한다. 하지만 전체적인 성능‑효율성 관점에서 이는 충분히 감수할 만한 수준이다.


댓글 및 학술 토론

Loading comments...

의견 남기기