양자화 기반 대형 언어 모델 가속기 AxLLM

초록

본 논문은 양자화가 파라미터의 지역성을 높여 동일 가중치값이 반복되는 현상을 만들고, 이를 활용해 곱셈 결과를 캐시·재사용하는 AxLLM 하드웨어 아키텍처를 제안한다. 중복 연산을 최대 90%까지 제거하고, 에너지 소비를 28% 절감하며, 기존 실행 대비 1.7배 가속한다. 베이스 모델과 LoRA 파인튜닝 모델 모두 별도 파라미터 수정 없이 적용 가능하다.

상세 요약

AxLLM은 양자화가 모델 파라미터를 8비트 이하의 정수값으로 압축하면서 발생하는 “가중치 중복성”을 핵심 설계 포인트로 삼는다. 양자화 과정에서 동일한 실수값이 동일한 정수값으로 매핑되기 때문에, 대규모 트랜스포머의 매트릭스 연산에서 같은 가중치가 여러 번 등장한다. 기존 가속기들은 이러한 중복을 무시하고 매 연산마다 곱셈을 수행하지만, AxLLM은 “중복 제거 파이프라인”을 도입해 동일 가중치‑입력 쌍에 대한 곱셈 결과를 캐시하고 재사용한다.

구조적으로는 두 개의 독립적인 Multiply‑Reuse 파이프라인을 병렬 배치한다. 첫 번째 파이프라인은 일반적인 매트릭스‑벡터 곱셈을 수행하고, 두 번째 파이프라인은 캐시 히트가 발생했을 때 저장된 곱셈 결과를 바로 전달한다. 캐시 관리 유닛은 가중치 값의 빈도수를 실시간으로 추적해 가장 빈번히 사용되는 256개의 가중치를 LRU 기반 소규모 SRAM에 저장한다. 이렇게 하면 메모리 대역폭 압박을 크게 완화하면서도 연산량을 크게 줄일 수 있다.

또한 AxLLM은 LoRA(Fine‑tuning)와 같은 파라미터 효율적 적응 기법을 지원한다. LoRA는 기본 가중치에 저차원 행렬을 추가하는 방식이므로, 기본 가중치 자체는 변하지 않는다. 따라서 기존 캐시 구조를 그대로 활용할 수 있어, 추가 파라미터에 대한 별도 재학습이나 오프라인 전처리 없이도 동일한 중복 제거 효과를 얻는다.

실험에서는 GPT‑Neo‑2.7B와 LLaMA‑7B 등 여러 공개 모델에 양자화(4‑bit, 8‑bit)와 LoRA 파인튜닝을 적용한 뒤, AxLLM과 기존 GPU/TPU 기반 실행을 비교했다. 결과는 평균 85%~~90%의 연산 감소, 28%의 에너지 절감, 1.5~~1.9배의 처리량 향상을 보여준다. 특히 메모리 사용량이 30% 이하로 감소해, 메모리 제한이 심한 엣지 디바이스에서도 대형 모델을 실행할 수 있는 가능성을 제시한다.

핵심 기여는 (1) 양자화가 가져오는 파라미터 지역성을 정량화하고, (2) 이를 활용한 하드웨어 수준 중복 제거 메커니즘을 설계했으며, (3) 베이스 모델과 파인튜닝 모델 모두에 적용 가능한 범용 아키텍처를 구현했다는 점이다. 향후 연구에서는 캐시 크기와 교체 정책을 동적으로 조정하는 적응형 메커니즘, 그리고 비정형 양자화 스키마(예: 혼합 정밀도)와의 통합을 탐색할 여지가 있다.

초록

상세 요약

📜 논문 원문 (영문)