FPGA 실시간 신경망을 위한 초고해상도 양자화(HGQ)
초록
HGQ는 파라미터별 비트폭을 미분가능하게 학습시켜 FPGA에서 마이크로초 이하 지연으로 복잡한 DNN을 구현하도록 설계된 양자화‑인식 훈련 프레임워크이다. 비트폭을 파라미터 단위까지 최적화하고, 온‑칩 자원 사용량을 정규화로 함께 최소화함으로써 기존 압축·양자화 기법 대비 자원·지연을 크게 감소시키면서 정확도는 유지한다. CERN ATLAS·CMS 트리거 시스템 등에 적용돼 실시간 데이터 선택에 활용되고 있다.
상세 분석
HGQ는 두 가지 핵심 기술을 결합한다. 첫 번째는 “미분가능 고해상도 양자화”로, 전통적인 고정소수점 양자화 파라미터(부호·정수·소수 비트)를 연속적인 surrogate 변수로 전환하고, 역전파 시 이 변수에 대한 그래디언트를 계산한다. 학습 단계에서는 연속값을 정수 비트폭으로 라운딩하고, 양자화 연산 자체도 RND(반올림)·SAT(클리핑)·WRAP(모듈러) 등 FPGA 구현 비용을 고려한 옵션을 제공한다. 특히, 비트폭을 파라미터‑단위(가중치·활성화 각각)까지 조정할 수 있어, 중요한 가중치에만 높은 정밀도를 할당하고 불필요한 부분은 0비트(즉, 프루닝)로 처리한다. 이는 기존의 레이어‑단위 혹은 채널‑단위 양자화와 달리 매우 미세한 granularity를 제공한다는 점에서 차별화된다.
두 번째는 “미분가능 온칩 자원 사용량 추정기”이다. FPGA에서 LUT, DSP, BRAM 등 자원 소비는 비트폭과 연산 구조에 직접 비례한다. HGQ는 각 파라미터의 비트폭을 기반으로 추정된 자원 사용량을 손실 함수에 정규화 항으로 삽입한다. 따라서 학습 과정에서 정확도 향상이 자원 비용을 초과하면 손실이 증가하고, 최적화 알고리즘은 정확도와 자원 사이의 Pareto 최적점을 탐색한다. 이 접근법은 설계자가 사전에 명시한 자원 예산(예: LUT 10 % 이하, DSP 5 % 이하)과 정확도 목표를 동시에 만족시키는 모델을 자동으로 도출한다.
HGQ의 구현은 기존 FPGA‑친화적 툴체인과 연동된다. hls4ml과 da4ml을 백엔드로 사용해 양자화된 모델을 HLS 혹은 RTL 코드로 변환하고, II=1 파이프라인, Distributed Arithmetic(DA) 기반 매트릭스‑벡터 곱을 자동 최적화한다. 또한, LGPL‑3 라이선스로 오픈소스화돼 연구 커뮤니티가 자유롭게 확장·검증할 수 있다. 실험에서는 ResNet‑18, BDT‑like 트리 모델 등 여러 베이스라인을 대상으로 비트폭을 평균 2‑3비트까지 낮추면서도 정확도 손실을 0.5 % 이하로 억제했고, LUT 사용량을 70 % 이상 절감, 지연은 0.8 µs 이하로 달성했다. 특히, 기존 LUT‑기반 논리 매핑 방식은 수천 개 LUT 수준에서는 효율적이지만, 수십만 개 LUT가 필요한 대형 모델에서는 라우팅·전력 문제가 발생한다. HGQ는 DSP와 LUT를 혼합 사용해 이러한 스케일링 한계를 극복한다.
한계점으로는 (1) 비트폭을 파라미터‑단위로 최적화하기 위해 많은 연산량과 메모리가 필요해 훈련 비용이 증가한다는 점, (2) 매우 낮은 비트폭(1‑2비트)에서 STE 기반 미분이 불안정해 학습 수렴이 어려울 수 있다는 점, (3) 현재는 Xilinx/Vivado와 Intel/HLS에 최적화돼 있어 다른 FPGA 벤더(예: Lattice)와의 호환성이 제한적이다. 향후 연구에서는 메타‑학습을 도입해 초기 비트폭 분포를 자동 설정하거나, 하드웨어‑인-더‑루프(HIL) 검증을 통해 실제 전력·온도 모델을 정규화에 포함시키는 방안을 제시한다.
전반적으로 HGQ는 “정밀도‑자원‑지연 삼각관계”를 학습 단계에서 동시에 고려함으로써, 초저지연 실시간 시스템(고에너지 물리 트리거, 이벤트 카메라, 고주파 거래 등)에서 복잡한 딥러닝 모델을 FPGA에 구현할 수 있는 실용적인 길을 열었다.
댓글 및 학술 토론
Loading comments...
의견 남기기