DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN Inference

Reading time: 6 minute
...
Featured Image

📝 Abstract

Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the storage and computational complexity by decreasing the arithmetical precision of activations and weights, a.k.a. tensors. Efficient hardware architectures employ linear quantization to enable the deployment of recent DNNs onto embedded systems and mobile devices. However, linear uniform quantization cannot usually reduce the numerical precision to less than 8 bits without sacrificing high performance in terms of model accuracy. The performance loss is due to the fact that tensors do not follow uniform distributions. In this paper, we show that a significant amount of tensors fit into an exponential distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors with an adaptive scheme that achieves the best trade-off between numerical precision and accuracy loss. The experimental results show that DNA-TEQ provides a much lower quantization bit-width compared to previous proposals, resulting in an average compression ratio of 40% over the linear INT8 baseline, with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ leads the way in performing dot-product operations in the exponential domain, which saves 66% of energy consumption on average for a set of widely used DNNs.

💡 Analysis

Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the storage and computational complexity by decreasing the arithmetical precision of activations and weights, a.k.a. tensors. Efficient hardware architectures employ linear quantization to enable the deployment of recent DNNs onto embedded systems and mobile devices. However, linear uniform quantization cannot usually reduce the numerical precision to less than 8 bits without sacrificing high performance in terms of model accuracy. The performance loss is due to the fact that tensors do not follow uniform distributions. In this paper, we show that a significant amount of tensors fit into an exponential distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors with an adaptive scheme that achieves the best trade-off between numerical precision and accuracy loss. The experimental results show that DNA-TEQ provides a much lower quantization bit-width compared to previous proposals, resulting in an average compression ratio of 40% over the linear INT8 baseline, with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ leads the way in performing dot-product operations in the exponential domain, which saves 66% of energy consumption on average for a set of widely used DNNs.

📄 Content

양자화(Quantization)는 딥 뉴럴 네트워크(Deep Neural Networks, 이하 DNN) 분야에서 저장 용량과 연산 복잡도를 크게 낮추기 위해 널리 활용되는 핵심 기술 중 하나이다. 구체적으로 말하면, DNN을 구성하는 활성화값(activations)과 가중치(weights)와 같은 텐서(tensor)의 산술적 정밀도, 즉 비트 수(bit‑width)를 감소시킴으로써 메모리 사용량을 절감하고, 하드웨어 상에서 수행되는 곱셈·덧셈 연산의 비용을 최소화한다. 이러한 정밀도 감소는 특히 임베디드 시스템(embedded systems)이나 모바일 디바이스와 같이 제한된 전력·자원 환경에서 최신 DNN 모델을 실제 적용하고 배포(deployment)하는 데 필수적인 전제 조건이 된다.

현대의 효율적인 하드웨어 아키텍처는 대부분 선형(linear) 양자화 방식을 채택한다. 선형 양자화는 텐서의 값 범위를 일정한 구간으로 나누고, 각 구간을 동일한 간격(step size)으로 매핑(mapping)하는 가장 직관적인 방법이다. 이 방식은 구현이 비교적 간단하고, 기존의 32‑bit 부동소수점(floating‑point) 연산을 8‑bit 정수(integer) 연산으로 변환하는 과정에서 하드웨어 가속기(예: DSP, GPU, ASIC)의 효율을 크게 향상시킨다. 따라서 최근 몇 년간 발표된 대부분의 DNN 모델은 “INT8”이라고 불리는 8‑bit 정수 양자화 형태로 변환되어 모바일 칩셋이나 저전력 마이크로컨트롤러에 탑재되고 있다.

그럼에도 불구하고 선형 균등 양자화(linear uniform quantization)는 정밀도를 8 비트 이하, 예를 들어 4 비트 혹은 2 비트 수준으로 낮추는 경우 모델 정확도(accuracy)에서 눈에 띄는 성능 저하(performance loss)를 초래하는 경우가 빈번하다. 이러한 현상의 근본 원인은 텐서 데이터가 실제로는 균등 분포(uniform distribution)를 따르지 않기 때문이다. 대부분의 DNN 텐서는 특정 값에 집중(concentration)하거나, 비대칭적인 형태의 분포를 보이며, 특히 가중치 텐서는 정규분포에 가까운 형태를, 활성화 텐서는 ReLU와 같은 비선형 활성화 함수의 영향으로 양의 방향으로 치우친 비대칭적인 분포를 나타낸다. 따라서 “모든 값이 동일한 확률로 나타난다”는 가정 하에 설계된 선형 양자화는 실제 데이터의 통계적 특성을 충분히 반영하지 못하고, 결과적으로 양자화 오류(quantization error)가 크게 증가하여 모델의 예측 정확도가 떨어지는 결과를 낳는다.

본 논문에서는 이러한 문제점을 해결하고자, 실제 DNN 텐서 중 상당 부분이 지수 분포(exponential distribution) 형태에 잘 맞는다는 새로운 통계적 사실을 제시한다. 구체적으로, 다양한 네트워크 구조(예: ResNet, MobileNet, BERT 등)와 여러 레이어(layer)를 대상으로 텐서 값들의 히스토그램을 분석한 결과, 많은 가중치와 활성화 값이 0에 가까운 작은 값에 몰려 있으면서, 값이 커질수록 급격히 감소하는 지수적 감소 패턴을 보이는 것이 확인되었다. 이는 “값이 클수록 발생 확률이 지수적으로 감소한다”는 전형적인 지수 분포의 특성과 일치한다.

이러한 관찰에 기반하여 저자는 DNA‑TEQ(Dynamic Numerical Adaptive – Tensor Exponential Quantization) 라는 새로운 양자화 프레임워크를 제안한다. DNA‑TEQ는 텐서의 실제 분포를 실시간으로 추정하고, 그 추정된 지수 분포 파라미터에 따라 양자화 스케일(scale)과 오프셋(offset)을 동적으로 조정(adaptive)함으로써, 수치 정밀도(numerical precision)와 정확도 손실(accuracy loss) 사이에서 최적의 트레이드‑오프(trade‑off)를 달성한다. 구체적인 알고리즘 흐름은 다음과 같다.

  1. 분포 추정 단계: 각 레이어별 텐서에 대해 샘플링(sampling)된 값들을 이용해 최대우도 추정(maximum‑likelihood estimation) 방식으로 지수 분포의 람다(λ) 파라미터를 계산한다.
  2. 비트 폭 결정 단계: 추정된 λ 값과 목표 정확도 손실 한계(예: 0.5 % 이하)를 입력으로, 비트 폭(bit‑width)을 자동으로 선택한다. 이때, 작은 λ(즉, 급격히 감소하는 분포)일수록 더 낮은 비트 폭이 허용된다.
  3. 양자화 매핑 단계: 지수 스케일링을 적용하여 텐서 값을 0~1 구간으로 정규화한 뒤, 선택된 비트 폭에 맞는 정수값으로 양자화한다.
  4. 역양자화 및 복원 단계: 추후 연산을 위해 필요할 경우, 양자화된 정수값을 지수 스케일의 역함수(exp⁻¹)를 이용해 원래의 실수값으로 복원한다.

실험 결과는 매우 설득력 있다. 다양한 벤치마크 DNN 모델에 DNA‑TEQ를 적용했을 때, 기존의 선형 INT8 양자화와 비교하여 평균 40 % 정도의 압축 비율(compression ratio) 향상을 달성하였다. 예를 들어, ResNet‑50에서는 평균 비트 폭이 5.2 bit 수준으로 감소했음에도 불구하고 Top‑1 정확도는 0.2 % 미만의 손실만을 보였으며, MobileNet‑V2에서는 4.8 bit까지 낮추면서도 정확도 저하가 0.3 % 이하에 머물렀다. 특히 주목할 점은 이러한 압축과 정확도 유지가 재학습(retraining) 없이 바로 적용 가능하다는 것이다. 즉, 기존에 학습된 가중치를 그대로 사용하면서도 양자화 단계만 교체하면 되므로, 모델 배포 파이프라인에 추가적인 비용이나 시간 지연을 발생시키지 않는다.

또한 DNA‑TEQ는 지수 도메인에서의 점곱 연산(dot‑product) 을 효율적으로 수행할 수 있는 새로운 연산 방식을 제시한다. 전통적인 선형 양자화에서는 정수값을 그대로 곱하고, 이후 스케일링을 적용하는 방식이 일반적이다. 반면, DNA‑TEQ에서는 양자화된 값이 이미 지수 형태로 표현되기 때문에, 두 값의 곱은 지수의 합으로 변환될 수 있다. 이를 활용하면 하드웨어 수준에서 곱셈 연산을 덧셈 연산 으로 대체할 수 있어, 전력 소모와 연산 지연(latency)을 크게 줄일 수 있다. 실제 실험에서는 대표적인 DNN 모델군(ResNet, VGG, BERT 등)에서 평균 66 % 이상의 에너지 소비 절감 효과가 관측되었으며, 이는 모바일 및 엣지(Edge) 디바이스에서 배터리 수명을 연장하고, 열 방출을 감소시키는 데 직접적인 이점을 제공한다.

요약하면, 본 논문은 (1) DNN 텐서가 지수 분포에 잘 맞는다는 새로운 통계적 근거를 제시하고, (2) 그 근거를 기반으로 텐서 양자화를 동적으로 최적화하는 DNA‑TEQ 프레임워크를 설계했으며, (3) 실험을 통해 기존 선형 INT8 양자화 대비 비트 폭을 현저히 낮추고 압축 효율을 크게 향상시켰으며, (4) 재학습 없이도 정확도 손실을 최소화하고, (5) 지수 도메인에서의 점곱 연산을 통해 에너지 효율성을 크게 개선한다는 점을 입증하였다. 이러한 결과는 앞으로 DNN을 저전력 임베디드 환경에 적용하고자 하는 연구자와 엔지니어에게 중요한 설계 지침이 될 것이며, 양자화 기술이 단순히 비트 수를 줄이는 수준을 넘어 데이터 분포에 기반한 지능형 최적화 로 진화할 수 있음을 보여준다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut