고성능 3비트 LLM 추론을 위한 인터리브 삼진 양자화와 회전 도메인 스무딩

ITQ3_S는 256차원 블록에 Fast Walsh‑Hadamard Transform을 적용해 가중치를 회전시킨 뒤, 3비트 삼진 양자화를 수행한다. 변환 후 가중치 분포가 거의 가우시안에 가까워져 스케일을 작게 잡을 수 있어 정밀도가 크게 향상된다. CUDA 커널에 256‑포인트 역FWHT를 공유 메모리 단계에 융합해 오버헤드를 최소화하고, RTX 5090에서 FP16 대비 비슷한 퍼플렉시티와 1.5배 이상의 처리량을 달성한다.

저자: Edward J. Yoon

본 논문은 대규모 언어 모델(LLM)의 메모리와 연산 효율성을 극대화하기 위해 3‑bit 가중치 양자화 방식을 새롭게 설계한 ITQ3_S(Interleaved Ternary Quantization – Specialized)를 제안한다. 기존 3‑bit 양자화는 무거운 꼬리와 채널 간 상관관계 때문에 퍼플렉시티 급격히 악화되는 “브레이킹 포인트” 현상이 있었으며, 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 도입한다. 첫 번째는 Fast Walsh‑Hadamard Transform(FWHT)을 이용한 회전이다. 가중치를 256‑차원 블록 단위로 FWHT에 의해 회전시키면, 각 원소가 독립적인 부호를 갖는 합으로 변환되어 중앙극한정리에 의해 거의 정규분포를 이루게 된다. 이 과정에서 원래의 아웃라이어가 전체 블록에 고르게 퍼져 ℓ∞ 노름이 크게 감소하고, 변환 후 분포가 가우시안에 가까워져 삼진 양자화의 스케일을 작게 잡을 수 있다. 두 번째는 3‑bit 삼진 값을 효율적으로 저장·연산하기 위한 인터리브 패킹이다. 두 개의 4‑bit 니블 스트림을 교차시켜 32‑bit 워드에 압축함으로써 DP4A와 Tensor Core가 최적화된 메모리 접근 패턴을 활용한다. 수학적 분석에서는 정리 1을 통해 FWHT가 가중치 분포를 N(0,σ²)로 수렴시킨다는 것을 증명하고, 정리 2에서는 변환 후 삼진 양자화의 ℓ₂ 오차 상한을 (n·d_k²/4)+ε_FWHT 로 제시한다. 여기서 d_k는 변환 후 표준편차를 기반으로 계산된 최적 스케일이며, ε_FWHT는 역FWHT 연산의 부동소수점 라운딩 오차에 불과하다. 즉, 회전 단계는 오차를 증가시키지 않으며 오히려 스케일을 감소시켜 전체 오류를 크게 줄인다. 구현 측면에서는 CUDA 커널에 256‑포인트 역FWHT를 공유 메모리 로딩 단계에 직접 융합한다. 각 스레드는 전역 메모리에서 3‑bit 양자화 데이터를 로드하고, 비트필드 추출을 통해 삼진 값(−1,0,+1)을 복원한다. 복원된 값에 스케일·제로 포인트를 적용해 실수 가중치를 얻고, 이를 공유 메모리 배열에 저장한다. 이후 8단계 버터플라이 연산을 수행해 역FWHT를 완성하고, 마지막에 1/√256 정규화 곱만 수행하면 된다. 이 과정에서 전역 메모리 접근은 한 번만 발생하고, 연산 오버헤드는 거의 없으며, DP4A와 Tensor Core를 활용한 매트릭스‑벡터 곱 연산에 바로 투입할 수 있다. 실험에서는 NVIDIA RTX 5090(Blackwell) GPU를 사용해 LLaMA‑3 8B, LLaMA‑3 70B, Mistral 7B, Qwen2.5 32B 모델을 평가했다. 퍼플렉시티 측면에서 WikiText‑2와 C4 데이터셋에 대해 FP16 대비 차이를 0.38~0.64 정도로 크게 줄였으며, 기존 3‑bit 양자화인 IQ3 S와 QuIP#‑3bit보다 각각 0.26~0.38 퍼플렉시티 포인트 개선을 보였다. 메모리 사용량은 3.125 bits/weight(≈27.3 GiB for 70B)로 32 GiB VRAM에 충분히 들어가며, KV 캐시를 위한 여유 메모리도 확보된다. 처리량은 디코드 단계에서 약간 감소했지만(960 tok/s vs. 1020 tok/s), 프리필 단계에서는 51,200 tok/s를 기록해 전체적으로 FP16 대비 1.8~2.0배 가속을 달성했다. 블록 크기 256이 품질‑효율성 트레이드오프에서 최적임을 확인했으며, 512로 확대하면 오버헤드가 2.3배 증가해 실용성이 떨어진다. 논문의 한계로는 현재 가중치 양자화에만 초점을 맞추고 활성화 양자화와 KV 캐시 양자화에 대한 적용이 미구현 상태라는 점이다. 또한 FWHT가 블록 단위이기 때문에 매우 큰 행렬에 대해선 추가적인 계층적 회전이 필요할 수 있다. 향후 연구에서는 랜덤 회전과 deterministic FWHT의 혼합, KV 캐시와 활성화에 대한 회전‑양자화 파이프라인을 탐색하고, 더 큰 모델과 다양한 하드웨어 아키텍처에 대한 확장성을 검증할 계획이다. 결론적으로 ITQ3_S는 회전 도메인에서 가중치를 스무딩하고, 하드웨어 친화적인 3‑bit 삼진 코딩과 역FWHT 융합을 통해 메모리 절감과 높은 정확도를 동시에 달성한 혁신적인 3‑bit 양자화 프레임워크이며, 소비자급 GPU에서도 70B 규모 모델을 단일 GPU로 실행할 수 있는 실용적인 솔루션을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기