NVFP4 양자화 훈련 정확도 혁신 Quartet II와 MSEDEN
초록
본 논문은 NVIDIA Blackwell GPU에서 지원하는 NVFP4 4비트 마이크로스케일링 포맷을 이용해 대규모 언어 모델을 완전 양자화(pre‑training)하는 새로운 방법을 제시한다. 기존의 확률적 라운딩(SR)보다 2배 이상 낮은 양자화 오차를 갖는 MS‑EDEN이라는 무편향 양자화 루틴을 개발하고, 이를 전·후방 연산에 적용한 완전 NVFP4 선형 레이어 스킴인 Quartet II를 설계한다. 이론적 분석과 실험을 통해 Gradient 추정 정확도가 향상되고, 1.9 B 파라미터 모델을 38 B 토큰 규모로 학습했을 때 BF16 대비 4.2배 속도 향상과 손실 감소를 입증한다.
상세 분석
Quartet II 논문은 NVFP4 포맷의 구조적 특성을 면밀히 분석하고, 특히 역전파 단계에서 발생하는 편향이 학습 수렴에 미치는 악영향을 최소화하려는 접근을 취한다. 기존 연구들은 FP4 레이어에 대해 요소별 확률적 라운딩(SR)을 사용해 무편향성을 확보했지만, 4비트 정밀도에서는 라운딩 변동이 크게 증폭돼 MSE가 크게 증가한다는 한계가 있었다. 저자들은 이 문제를 해결하기 위해 MS‑EDEN(MicroScaling EDEN)이라는 새로운 양자화 기법을 고안한다. 핵심 아이디어는 스케일 그룹 단위에 무작위 Hadamard 변환(RHT)을 적용하고, 변환된 값들을 RTN(라운드‑투‑네어스트) 방식으로 양자화한 뒤, EDEN에서 사용된 스케일 보정 계수 S를 NVFP4의 FP8 그룹 스케일에 확률적 라운딩을 통해 삽입함으로써 기대값이 정확히 원본값과 일치하도록 만든다. 이 과정에서 스케일 보정이 FP8의 제한된 정밀도(최소 곱셈 단위 1.0625) 안에서 구현될 수 있도록 클리핑 파라미터 s를 도입하고, 필요 시 스케일 상한을 조정한다. 이론적으로는 Corollary 3.1에 의해 전체 양자화 연산이 무편향성을 유지함을 증명하고, 실험적으로는 SR 대비 평균 MSE가 23.5×10⁻³에서 9.8×10⁻³ 수준으로 약 2.4배 감소함을 보여준다.
Quartet II는 이러한 MS‑EDEN을 역전파의 내부 차원 블록 회전에 결합하고, 전방패스에서는 Four‑Over‑Six 스케일 선택 히어스틱을 적용해 표현 용량을 극대화한다. 결과적으로 주요 GEMM 연산(예: Q·Kᵀ, V·Oᵀ 등)에서 양쪽 방향 모두 더 정확한 Gradient 추정이 가능해진다. 구현 측면에서는 NVIDIA Blackwell GPU의 텐서코어를 활용해 128‑element 청크 단위 RHT와 NVFP4 양자화를 병렬화했으며, 기존 BF16 커널 대비 4.2배의 처리량 향상을 달성한다.
실험에서는 Llama‑2‑like 구조의 1.9 B 파라미터 모델을 38 B 토큰(토큰당 파라미터 비율 D/N)으로 학습했으며, 동일한 학습 설정 하에서 BF16 기준 손실 증가율을 0.3% 이하로 억제했다. 또한 다양한 스케일 그룹 크기(1×16, 16×16)와 스케일 보정 옵션을 조합한 Ablation 연구를 통해 MS‑EDEN이 가장 큰 성능 향상을 제공함을 확인했다. 한계점으로는 현재 구현이 선형 레이어에 국한되어 있어 비선형 연산(예: GELU)이나 레이어 정규화에 대한 양자화 전략이 별도로 필요하다는 점을 언급한다. 향후 연구에서는 MS‑EDEN을 전체 트랜스포머 파이프라인에 확장하고, 더 큰 모델(수십억 파라미터)에서의 스케일링 효율성을 검증할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기