NVFP4 한계 돌파, RaZeR로 중복 제로 재배치

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 NVIDIA가 제안한 4비트 부동소수점 포맷 NVFP4의 두 가지 중복성을 활용한다. FP4 요소의 양·음 제로와 FP8 블록 스케일의 부호 비트를 재활용해 ‘특수값’으로 전환함으로써 메모리 비용은 그대로 두고 양자화 정확도를 크게 향상시킨다. RaZeR 포맷을 구현한 GPU 커널과 전용 텐서코어 설계를 제시하고, 다양한 LLM에 대해 퍼플렉시티 손실을 30% 이상 감소시킨다.

상세 분석

NVFP4는 4비트 FP4 요소와 8비트 FP8 블록 스케일을 결합한 블록‑와이즈 양자화 방식을 사용한다. FP4는 부호‑크기 표현으로 +0과 –0을 모두 포함하므로 실제로는 8개의 양자화 레벨 중 하나가 중복된다. 또한, NVFP4에서 블록 스케일은 항상 양수이기 때문에 FP8‑E4M3 포맷의 부호 비트가 사용되지 않는다. 저자들은 이 두 비트를 ‘여유 비트’로 간주하고, 각각을 특수값 선택 메타데이터로 재배치한다.

먼저 블록 스케일의 비트를 축소한다. 실험적으로 가중치 블록은 E3M3(6비트) 스케일로도 정확도 손실이 없으며, 이는 가중치의 동적 범위가 제한적이기 때문이다. 반면 활성화는 E4M3(7비트) 스케일을 유지해야 한다. 이렇게 확보된 2비트(가중치)와 1비트(활성화) 여유를 이용해 각각 4가지와 2가지 특수값을 인코딩한다. 특수값은 FP4와 동일한 0.5 간격을 유지하도록 설계했으며, 절댓값이 같은 부호쌍(±v) 형태로 제한해 하드웨어 구현 복잡도를 낮췄다.

특수값 선택은 각 블록의 평균제곱오차(MSE)를 최소화하는 방식으로 수행된다. 가중치의 경우 오프라인으로 최적 특수값을 미리 계산하고, 활성화는 Pile 데이터셋을 이용한 캘리브레이션 단계에서 두 후보값을 시험해 더 작은 MSE를 보이는 쪽을 선택한다. 실험 결과, ±5가 대부분의 모델에서 최적 특수값으로 나타났으며, 이는 FP4의 최대값 ±4와 ±6 사이의 빈틈을 메워 양자화 오류를 크게 감소시킨다.

소프트웨어 측면에서는 Blackwell GPU의 기존 NVFP4 커널을 확장해 특수값 메타데이터를 로드하고, 양자화·역양자화 연산에 최소한의 추가 연산만을 삽입했다. 하드웨어 측면에서는 텐서코어 내부에 1비트(활성화) 혹은 2비트(가중치) 선택 로직을 추가해 특수값을 빠르게 매핑하도록 설계했으며, 실리콘 면적과 전력 증가가 미미함을 시뮬레이션으로 입증했다.

종합적으로 RaZeR는 메모리 사용량을 그대로 유지하면서 FP4 양자화의 표현력을 1~2비트 수준 확대한다. 이는 기존 NVFP4 대비 가중치‑전용 양자화에서 평균 퍼플렉시티 손실을 34.6%, 가중치‑활성화 동시 양자화에서 31.2% 감소시키는 결과로 확인되었다.

NVFP4 한계 돌파, RaZeR로 중복 제로 재배치

초록

상세 분석

댓글 및 학술 토론

의견 남기기