초저지연 엣지 AI를 위한 민감도 기반 하이브리드 양자화·프루닝

초저지연 엣지 AI를 위한 민감도 기반 하이브리드 양자화·프루닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HQP 프레임워크는 Fisher Information Matrix 근사에 기반한 필터 민감도 지표를 활용해 정확도 손실 제한(Δₐₓ ≤ 1.5 %)을 만족하면서 구조적 프루닝을 수행하고, 이후 8‑bit PTQ를 적용한다. 모바일넷V3와 ResNet‑18을 NVIDIA Jetson Nano·Xavier NX에 배포해 평균 3.12배 속도 향상과 55 % 모델 크기 감소를 달성하였다.

상세 분석

본 논문은 엣지 디바이스의 엄격한 지연·전력 제한을 극복하기 위해 모델 압축 기법을 순차적으로 적용하는 전통적 파이프라인의 비효율성을 지적한다. 특히, 무작위 가중치 절삭이나 단순 L1/L2 기반 필터 선택은 양자화 단계에서 동적 범위가 급격히 확대돼 스케일링 오류를 유발하고, 이는 INT8 PTQ 시 정확도 급락으로 이어진다. HQP는 이러한 문제를 두 단계에서 동시에 해결한다. 첫 번째 단계는 Fisher Information Matrix(FIM)의 대각선 근사를 이용해 각 필터의 “민감도 S”를 계산한다. 이때 S는 작은 백워드 패스 하나만으로 추정 가능하므로 계산 비용이 매우 낮다. 민감도는 파라미터가 손실 함수에 미치는 2차 영향력을 통계적으로 측정하므로, 기존의 magnitude‑heuristic보다 전역적인 중요도를 반영한다. 두 번째 단계는 사전 정의된 정확도 감소 한계 Δₐₓ를 조건으로 하는 반복적 프루닝 루프이다. 매 프루닝 스텝마다 가장 낮은 S 값을 가진 δ % 필터를 제거하고, 별도 검증 셋으로 즉시 정확도를 측정한다. 정확도 손실이 Δₐₓ를 초과하면 루프를 중단해 최적의 희소도 θ를 확보한다. 이렇게 얻어진 구조적 희소 모델은 가중치 분포가 평탄해져 동적 범위 R이 크게 감소하고, 결과적으로 양자화 스케일링 s가 작아진다. 따라서 INT8 PTQ 단계에서 KL‑Divergence 기반 캘리브레이션이 보다 안정적으로 수행돼 전체 정확도 저하가 최소화된다. 또한, 구조적 프루닝은 채널·필터 수준에서 정규화된 텐서 형태를 유지하므로 TensorRT와 같은 상용 런타임이 레이어 퓨전·데드 레이어 제거와 같은 최적화를 자동 적용할 수 있다. 실험에서는 MobileNetV3‑Small와 ResNet‑18을 대상으로 NVIDIA Jetson Nano(5‑10 W)와 Xavier NX(10‑15 W)에서 TensorRT를 이용해 추론을 수행했다. 결과는 프루닝만 적용했을 때(50 % 희소도) 1.35× 속도 향상, 양자화만 적용했을 때(75 % 메모리 절감) 1.58× 향상에 비해, HQP는 45 % 희소도와 55 % 모델 크기 감소를 달성하면서 3.12× 속도 향상을 기록했다. 정확도 손실은 1.4 %로 Δₐₓ = 1.5 % 이하를 유지했다. 복합 압축 기법 간의 상호작용을 정량적으로 분석한 복잡도 모델도 제시했으며, HQP의 전체 연산 비용 C_HQP는 Calibration 데이터에 대한 한 번의 백워드와 다수의 경량 검증 인퍼런스로 구성돼, 전통적인 Quantization‑Aware Training(QAT) 대비 수십 배 적은 비용으로 동일 수준의 압축 효율을 얻는다. 따라서 HQP는 하드웨어에 독립적인, 생산 단계에서 바로 적용 가능한 모델 최적화 솔루션으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기