AR VG 모델을 위한 훈련‑불필요 포스트‑트레이닝 양자화 혁신

AR VG 모델을 위한 훈련‑불필요 포스트‑트레이닝 양자화 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자동회귀 시각 생성(AR VG) 모델에 특화된 훈련‑불필요 포스트‑트레이닝 양자화(PTQ) 프레임워크 PTQ4ARVG를 제안한다. 채널‑별 이상치, 토큰‑별 동적 활성화, 샘플‑별 분포 불일치라는 세 가지 핵심 난관을 분석하고, 각각을 해결하기 위해 (1) 수학적 최적화를 기반으로 한 Gain‑Projected Scaling(GPS), (2) 고정 토큰 길이와 위치 불변성을 활용한 Static Token‑Wise Quantization(STWQ), (3) 분포 엔트로피 기반 샘플 선택을 통한 Distribution‑Guided Calibration(DGC)을 설계한다. 실험 결과, 8‑bit·6‑bit 양자화에서도 기존 방법 대비 FID·IS 등 성능 저하를 최소화하며, 다양한 AR VG 모델(VAR, RAR, PAR, MAR)에 적용 가능함을 입증한다.

상세 분석

PTQ4ARVG는 AR VG 모델이 가진 고유한 구조적·통계적 특성을 정밀히 파악한 뒤, 세부적인 양자화 전략을 설계한다. 첫 번째 난관인 채널‑별 이상치는 AdaLN 모듈이 입력을 스케일·시프트하면서 발생하는 극단값으로, 기존의 SmoothQuant·RepQ‑ViT와 같은 경험적 스케일링 기법은 이론적 근거가 부족해 최적화가 제한적이었다. GPS는 양자화 손실을 활성화와 가중치 각각에 대해 테일러 전개하고, 스케일링 인자 s에 대한 이득(gain)을 정의한다. 손실 감소와 증가를 차감한 이득을 미분해 최적 s를 구함으로써, 채널‑별 이상치를 최소화하면서 가중치 손실을 억제한다. 이 과정은 폐쇄형 해를 제공하므로 추가 학습 없이 바로 적용 가능하다.

두 번째 난관인 토큰‑별 동적 활성화는 AR VG가 고정된 토큰 수와 위치‑불변 분포를 갖는 점을 활용해 해결한다. 기존 LLM에서 사용되는 동적 토큰‑별 min‑max 캘리브레이션은 추론 시 오버헤드와 정확도 저하를 초래한다. STWQ는 전체 토큰에 대해 동일한 정적 캘리브레이션 파라미터를 사전에 할당하고, 각 토큰 위치별 백분위수(percentile) 기반 범위를 미리 계산한다. 이렇게 하면 런타임에 추가 연산이 없으며, CUDA 커널과의 호환성도 유지된다.

세 번째 난관인 샘플‑별 분포 불일치는 AR VG가 조건부 토큰을 초기화하고, 이후 토큰들이 높은 상관성을 보이면서 발생한다. DGC는 캘리브레이션에 사용되는 샘플 집합을 전체 데이터의 분포 엔트로피 기여도 기준으로 선택한다. 즉, 정보량이 높은 샘플을 우선적으로 포함시켜, 적은 수의 샘플로도 전체 데이터 분포를 잘 대표하도록 한다. 이는 기존의 무작위 혹은 시간‑스텝 기반 선택 방식보다 효율적이며, 캘리브레이션 비용을 크게 절감한다.

실험에서는 VAR‑d30, RAR‑XXL, PAR‑3B, MAR‑Huge 등 13 B 파라미터 규모의 모델들을 8‑bit 및 6‑bit 양자화했을 때, FID 기준 0.51.2 이하, IS 기준 0.1 이하의 성능 저하만을 보였다. 특히 6‑bit 양자화에서도 기존 PTQ 방법 대비 15‑30 % 높은 정확도를 달성했으며, 추론 속도는 평균 1.8× 가속되었다. 비교 대상으로는 SmoothQuant, OmniQuant, QuaRot, LiteVAR 등이 포함됐으며, 이들보다 메모리·연산 오버헤드가 현저히 낮았다.

한계점으로는 GPS가 가중치 Hessian을 근사하기 위해 MSE 손실을 사용함에 따라, 복잡한 손실 함수(예: GAN 기반)에서는 근사 오차가 누적될 가능성이 있다. 또한 STWQ는 토큰 길이가 고정된 모델에만 적용 가능하므로, 가변 길이 시퀀스를 다루는 변형 모델에는 추가 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기