ONNX 모델을 위한 선택적 양자화 튜너 SeQTO

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SeQTO는 ONNX 모델에 대해 레이어별 양자화 여부를 자동으로 탐색·조정하고, CPU·GPU 등 이기종 하드웨어에 배포·프로파일링하여 정확도 손실과 모델 크기 감소를 동시에 최적화한다. 레이어 민감도 분석, 파레토 프론트 기반 다목적 최적화, 시각화 리포트를 제공해 개발자가 제한된 리소스 환경에서도 높은 품질의 부분 양자화 모델을 손쉽게 얻을 수 있다.

상세 분석

본 논문은 양자화가 모델 크기와 연산량을 크게 감소시키지만, 특히 완전 양자화 시 정확도 손실이 심각해지는 문제를 해결하고자 한다. 이를 위해 저자들은 SeQTO라는 프레임워크를 설계했으며, 핵심 아이디어는 “선택적 양자화”를 자동화하고, 실제 하드웨어에서 측정된 성능 지표를 기반으로 다목적 최적화를 수행하는 것이다. 먼저 ONNX Quantizer를 활용해 전체 모델을 완전 양자화한 뒤, 소규모 캘리브레이션 데이터셋으로 각 레이어의 QDQ Error와 XModel Error를 계산한다. 두 오류를 정규화해 0.5 가중 평균을 취해 레이어 민감도 점수를 산출하고, 이 점수를 내림차순으로 정렬한다. 이후 가장 민감한 레이어부터 순차적으로 양자화를 제외하면서 여러 후보 모델을 생성한다. 각 후보는 ONNX Runtime(CPU)와 Apache TVM(GPU) 백엔드에 배포되어 실제 추론 정확도와 모델 파일 크기가 측정된다. 측정된 두 목표(정확도 손실 최소화, 크기 감소 최대화)를 Pymoo 라이브러리의 비지배 정렬(NDS)로 파레토 프론트를 구성하고, 상위 K개(논문에서는 K=3) 솔루션을 시각화한다. 이 과정에서 실행 중 발생하는 연산 호환성 오류도 자동으로 로그하고, 오류 원인 레이어를 다시 제외함으로써 하드웨어 제약을 실시간으로 반영한다. 실험에서는 MobileNetV2, ShuffleNetV2, EfficientNet‑Lite4, ResNet50 네 가지 모델을 Intel‑i5 CPU와 Mali‑G68 GPU에 적용했으며, 정적·동적 양자화 두 방식을 모두 테스트했다. 결과는 선택적 양자화가 완전 양자화 대비 평균 54 %의 정확도 손실 감소와 98 % 수준의 크기 감소를 동시에 달성함을 보여준다. 특히 동적 양자화에서 파레토 최적 모델은 거의 완전 양자화와 동일한 압축률을 유지하면서도 정확도 손실을 크게 억제한다. 논문은 기존 연구와 비교해 (1) ONNX 전용 지원, (2) 실제 디바이스 측정 기반 최적화, (3) 레이어 민감도 기반 탐색 공간 축소, (4) 시각화 리포트 제공 등 실용성을 크게 향상시켰음을 강조한다. 전체적으로 SeQTO는 양자화 튜닝을 자동화하고, 하드웨어 제약을 고려한 실용적인 솔루션을 제공함으로써 경량화가 필수인 모바일·임베디드 환경에 바로 적용 가능한 도구로 평가된다.

ONNX 모델을 위한 선택적 양자화 튜너 SeQTO

초록

상세 분석

댓글 및 학술 토론

의견 남기기