딥러닝 전용 고효율 근사 곱셈기 HEAM 설계와 최적화
초록
HEAM은 딥러닝 가중치·활성값의 실제 분포를 활용해 평균 오류를 최소화하는 자동 설계 방법을 제시한다. 부분곱 압축과 유전 알고리즘 기반 최적화를 통해 8×8 근사 곱셈기를 생성했으며, 기존 근사 곱셈기 대비 면적·전력·지연을 크게 줄이면서 정확도 손실을 거의 없앴다. 실제 DNN 가속기 모듈에 적용했을 때도 면적 18.7%·전력 9.99% 절감 효과를 보였다.
상세 분석
본 논문은 딥러닝 가속기에 적용되는 근사 곱셈기의 설계 목표가 “정밀도와 하드웨어 비용 사이의 최적 트레이드오프”임을 전제로, 기존 연구들이 대부분 균등한 피연산자 분포를 가정하고 설계된 점을 비판한다. 실제 양자화된 DNN에서는 가중치와 활성값이 특정 값(예: 0, 128) 주변에 집중되는 비균등 분포를 보이며, 이러한 특성을 반영하지 않으면 평균 오류가 크게 증가한다.
HEAM은 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 피연산자 확률 분포 p(x, y)를 명시적으로 모델링하고, 평균 제곱오차 Eₙ(θ)=∑₍ₓ,ᵧ₎D(x,y|θ)·p(x,y) 를 최소화하는 목표 함수를 정의한다. 여기서 D는 정확한 곱셈과 근사 곱셈의 차이를 제곱한 값이다. 둘째, 부분곱 행렬의 압축을 통해 하드웨어 비용을 감소시키는 구조적 접근을 사용한다. 4×4 예시에서 보여지듯, 동일한 형태·색상의 비트를 그룹화하고 AND, OR, XOR 연산으로 압축한 뒤, 선택적인 압축 항목을 가중치 θᵢ(0/1) 로 제어한다. 압축되지 않은 부분곱은 그대로 합산(u(x,y))하고, 압축된 항목은 가중치가 1일 때만 포함한다.
최적화는 MATLAB의 Mixed‑Integer Genetic Algorithm을 이용해 θ를 탐색한다. 비트폭이 커질 경우 전체 피연산자 조합을 모두 계산하는 것이 비현실적이므로, 논문에서는 무작위 샘플링을 통해 Eₙ을 근사한다. 또한, 압축 항목 수를 제한하기 위해 λ₁·∑θₖ 형태의 L1 패널티를 목표 함수에 추가해 하드웨어 복잡도를 직접 제어한다.
구현 단계에서는 8비트 양자화된 LeNet‑5 모델의 입력·가중치 히스토그램을 추출해 p(x, y)를 구하고, 이를 기반으로 8×8 근사 곱셈기를 설계한다. 압축은 첫 네 개의 부분곱만 적용했으며, 결과 회로는 약 17.5 µm² 면적, 76.2 µW 전력, 248 ps 지연을 보였다.
실험에서는 KMap, CR, AC, OU, SDLC 등 8×8 근사 곱셈기들을 동일 조건(ASAP 7 nm, 3 GHz)에서 합성해 면적·전력·지연을 비교하였다. HEAM은 KMap 대비 면적 15.76% 감소, 전력 25.05% 절감, 지연 3.50% 단축을 달성했으며, 정확도는 99.34%로 기존 최고 정확도보다 1.01% 우수했다. 정확도 손실이 거의 없으면서도 정확한 곱셈기 대비 면적·전력·지연을 각각 44.94%, 47.63%, 16.78% 절감했다.
다양한 데이터셋(MNIST, FashionMNIST, CIFAR‑10, CORA)과 네트워크(LeNet, AlexNet, GCN)에 적용한 결과, HEAM 기반 모델은 KMap 대비 최고 50.24%까지 정확도 향상을 보였으며, 특히 CIFAR‑10에서는 88.39% vs 38.15%라는 큰 격차를 나타냈다.
마지막으로, HEAM을 여러 DNN 가속기 모듈(TASU, Systolic Cube, Systolic Array)에 삽입해 전체 시스템 수준에서 면적·전력 절감 효과를 검증했다. TASU 모듈에서는 면적 6.66%·전력 4.43% 감소, 전체 가속기에서는 면적 18.70%·전력 9.99% 절감이라는 실질적인 이점을 제공한다.
요약하면, HEAM은 피연산자 분포를 정량적으로 활용한 목표 함수 설계, 부분곱 압축을 통한 구조적 비용 감소, 그리고 유전 알고리즘 기반의 자동 탐색이라는 세 축을 결합해, 재학습 없이도 DNN 가속기에 최적화된 근사 곱셈기를 제공한다는 점에서 기존 근사 곱셈 설계 패러다임을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기