이기종 AI 가속기용 4비트 GPTQ 양자화 LLM 추론 최적화: Opt4GPTQ
초록
Opt4GPTQ는 vLLM 기반 4비트 GPTQ 양자화 모델을 이기종 가속기(특히 HYGON DCU)에서 효율적으로 실행하도록 세 가지 플랫폼 수준 최적화(SMB‑Opt, VML‑Opt, ILA‑Opt)를 제안한다. 공유 메모리 버퍼링, 벡터화 메모리 로드, 인라인 어셈블리 활용을 통해 최대 84.42%의 처리량 향상을 달성하면서 정확도 손실은 1% 이내에 머문다.
상세 분석
본 논문은 대규모 언어 모델(LLM)의 추론 효율성을 높이기 위해, 4비트 GPTQ 양자화와 vLLM 서빙 시스템을 이기종 가속기 환경에 맞게 재구성한 Opt4GPTQ 프레임워크를 제시한다. 핵심은 세 가지 저수준 최적화 전략이다. 첫째, Shared Memory Buffering Optimization(SMB‑Opt)은 기존의 전역 메모리 원자 연산(AtomicAdd)에서 발생하는 높은 레이턴시와 캐시 일관성 트래픽을 완화한다. 각 스레드 블록 내부에서 부분 합을 공유 메모리(Shared Memory)에 누적하고, 블록당 하나의 스레드만 전역 메모리에 원자적으로 기록함으로써 “far” AMO를 “near” AMO로 전환한다. 이는 메모리 병목을 크게 감소시키고, 특히 대형 모델에서 메모리 대역폭 압박을 완화한다. 둘째, Vectorized Memory Loading Optimization(VML‑Opt)은 16비트 half 요소를 하나씩 로드하던 기존 방식에서 half2(32비트) 단위로 재해석(cast)하여 두 개의 half를 동시에 가져온다. 이 과정에서 __low2half와 __high2half를 이용해 데이터를 분해해 공유 메모리에 저장함으로써 메모리 트랜잭션 수를 절반으로 줄이고, 글로벌 메모리 접근의 coalescing 효율을 극대화한다. 셋째, Inline Assembly Optimization(ILA‑Opt)은 컴파일러가 생성하는 일반적인 연산 코드를 우회해, HYGON DCU의 GCN/VOP3 ISA에 직접 매핑된 v_mad_f16(벡터 fused multiply‑add)와 v_add_f16(벡터 덧셈) 명령을 인라인 어셈블리로 삽입한다. 이는 레지스터 할당과 파이프라인 스케줄링을 최적화해, half2 단위 연산당 하나의 명령으로 처리함으로써 연산 집약적인 GEMM 커널의 FLOPS 효율을 크게 끌어올린다. 실험에서는 Meta‑Llama‑3‑8B‑GPTQ, Llama‑2‑7B‑GPTQ, CodeLlama‑7B‑GPTQ, LLaMa‑13B‑GPTQ 등 6개 모델을 대상으로 DCU Z100 가속기와 ShareGPT_V3 데이터셋을 이용해 15회 반복 측정하였다. 결과는 SMB‑Opt, VML‑Opt, ILA‑Opt 각각이 5~17% 정도의 처리량 향상을 제공하고, 세 가지를 결합한 Opt4GPTQ는 최대 84.42%(LLaMa‑13B‑GPTQ)까지 상승한다는 점을 보여준다. 특히 모델 규모가 클수록 메모리와 연산 압박이 커져 최적화 효과가 증폭된다. 정확도 측면에서는 ARC_C와 ARC_E 두 벤치마크에서 모든 모델이 1% 이내 변동을 보였으며, 일부 모델은 미세하게 정확도가 상승하기도 했다. 이는 4비트 양자화 자체가 이미 높은 정확도를 유지하고 있음을 전제로, 제안된 최적화가 연산 흐름을 변경하면서도 수치 안정성을 보존한다는 것을 의미한다. 종합적으로, Opt4GPTQ는 하드웨어 특성을 정밀히 분석하고, 메모리 계층 구조와 ISA 수준에서 병목을 해소함으로써 이기종 가속기에서 4비트 GPTQ 양자화 LLM 추론을 실용적인 수준으로 끌어올렸다. 향후 다른 비전통적 가속기(NPU, FPGA 등)에도 동일한 계층적 접근법을 적용할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기