Ascend NPU에서 추론 LLM을 위한 PTQ 베이스라인 실험 보고서
초록
본 논문은 Ascend NPU에 특화된 4가지 PTQ 알고리즘(AWQ, GPTQ, SmoothQuant, FlatQuant)을 DeepSeek‑R1‑Distill‑Qwen 시리즈와 QwQ‑32B 모델에 적용해 8비트와 4비트 양자화 성능을 평가한다. 4비트 가중치‑전용 양자화는 7B 이상 모델에서 손실이 작지만, 4비트 가중치‑활성화 조합은 레이어별 캘리브레이션 불안정으로 장기 추론 시 논리 붕괴가 발생한다. 8비트 양자화는 수치적으로 안정적이며, 실제 INT8 배포에서는 커스텀 커널이 지연을 감소시키지만 동적 양자화 오버헤드가 여전히 병목이다.
상세 분석
본 연구는 Ascend NPU라는 비교적 새로운 AI 가속기에 LLM 양자화 기술을 적용할 때 발생하는 하드웨어‑소프트웨어 간 격차를 체계적으로 조사한다. 먼저, 가중치‑전용 압축 방법인 AWQ와 GPTQ를 4비트·3비트 그룹 사이즈 128 설정으로 실험했으며, 대규모 모델(≥7B)에서는 4비트 양자화가 BF16 기준 대비 평균 1~4% 수준의 정확도 저하만을 보였다. 특히, 1.5B 모델에서는 AWQ가 GPTQ보다 더 큰 손실을 보였는데, 이는 작은 모델에서 그룹화된 양자화가 활성화 분포의 비정규성을 충분히 보정하지 못하기 때문이다. 반면 3비트 양자화는 거의 모든 벤치마크에서 심각한 성능 붕괴를 일으켰으며, 이는 양자화 스텝이 너무 커서 중요한 가중치 정보가 소실되기 때문이다.
활성화까지 포함한 8비트 양자화인 SmoothQuant(W8A8KV8)은 KV 캐시까지 8비트로 압축했음에도 불구하고, Ascend NPU에서 수치적 안정성을 유지했다. 이는 Ascend가 8비트 정수 연산을 네이티브로 지원하고, 혼합 정밀도 누산을 효율적으로 처리하도록 설계되었기 때문이다. 다만, GPU 기반 결과와 비교했을 때 평균 0.5~2% 정도의 정확도 격차가 존재했으며, 이는 NPU의 고정소수점 연산 특성(예: 스케일링 및 오버플로우 방지 로직)에서 발생하는 미세한 오차 누적 때문으로 해석된다.
고급 회전 기반 양자화인 FlatQuant을 두 가지 설정으로 평가했다. 8비트 버전(W8A8KV8)은 기존 8비트 결과와 거의 일치했지만, 4비트·4비트·KV4 설정(W4A4KV4)은 플랫폼 민감도가 크게 나타났다. QA 벤치마크에서는 하이퍼파라미터 튜닝(그룹 사이즈, 캘리브레이션 샘플 수)으로 일부 회복이 가능했으나, 장기 컨텍스트 추론(AIME‑120, GSM8K 등)에서는 여전히 논리 흐름이 끊어지는 현상이 관찰되었다. 특히 QwQ‑32B와 같은 초대형 모델은 상대적으로 견고했지만, 14B 이하 모델에서는 레이어별 스케일링 오류가 누적돼 출력이 비정상적으로 변하는 ‘logic collapse’ 현상이 발생했다.
실제 INT8 배포 실험에서는 Ascend‑910B NPU에 최적화된 INT8×INT8 매트멈 커널을 적용해 지연을 10~15% 정도 감소시켰다. 그러나 동적 양자화(입력 텐서 실시간 스케일링 및 제로‑포인트 보정) 오버헤드가 전체 파이프라인에서 30% 이상을 차지했으며, 이는 현재 NPU SDK가 제공하는 자동 양자화 파이프라인이 아직 성숙하지 않음을 의미한다. 또한, FHT 기반 회전 변환을 필요로 하는 최신 알고리즘(예: QuaRot, SpinQuant)은 Ascend에 최적화된 구현이 부재해 실험에 포함되지 못했으며, 이는 향후 하드웨어‑소프트웨어 공동 설계가 필요함을 시사한다.
요약하면, Ascend NPU에서는 8비트 양자화가 가장 현실적인 선택이며, 4비트 가중치‑전용 양자화는 대형 모델에 한해 제한적으로 활용 가능하다. 4비트 가중치‑활성화 조합은 현재 하드웨어 제약으로 인해 장기 추론에 부적합하고, 회전 기반 4비트 양자화는 추가적인 커널 최적화와 하이퍼파라미터 튜닝 없이는 실용적이지 않다. 향후 연구는 FHT 가속, 동적 양자화 경량화, 그리고 NPU 전용 캘리브레이션 프레임워크 개발에 초점을 맞춰야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기