D‑레기온: 양자화 LLM 매트릭스 곱을 위한 확장형 다코어 가속기
초록
D‑레기온은 적응형 정밀도 사시컬 어레이 코어를 다수의 Legion 단위로 묶어, 1‑비트·2‑비트 양자화된 대형 언어 모델의 어텐션 매트릭스 곱을 고속·저전력으로 처리한다. 블록 구조 희소성 활용, psum 병렬 누산기, 타일 멀티캐스트 스케줄링을 통해 메모리 대역폭과 지연을 크게 감소시켰으며, 8 Legion(64코어) 구성에서 135.68 TOPS·1 GHz를 달성하고, TPUv4i 대비 2‑3배 수준의 성능·메모리 이점을 보였다.
상세 분석
본 논문은 양자화된 대형 언어 모델(LLM) 특히 BitNet 계열의 1‑bit·2‑bit 가중치를 대상으로, 기존 GPU·TPU 기반 가속기의 메모리·연산 병목을 해소하기 위한 새로운 하드웨어 구조인 D‑레기온(D‑Legion)을 제안한다. 핵심 아이디어는 사시컬 어레이(SA)를 기반으로 한 적응형 정밀도(Adaptive‑Precision) PE를 여러 개의 코어로 분할하고, 이 코어들을 Legion이라는 모듈 단위로 그룹화한다는 점이다. 각 Legion은 자체 누산기(parallel accumulator)를 내장해 부분합(psum)의 메모리 접근을 공간적으로 감소시키며, 이는 특히 희소 행렬 연산에서 메모리 대역폭 압축 효과를 크게 만든다.
구조적 특징을 구체적으로 살펴보면, (1) ADiP(Adaptive‑Precision DiP) 코어는 2‑bit 곱셈 유닛 16개를 4그룹으로 배치해 8b×2b 연산 시 4배의 처리량을 제공하고, 8b×8b 연산에서도 1‑cycle 레이턴시를 유지한다. (2) Legion 내부의 C개의 ADiP 코어는 동일한 입력 타일을 멀티캐스트 방식으로 전파함으로써 데이터 재사용을 극대화하고, NoC 설계가 이를 지원하도록 최적화되었다. (3) 블록 구조 희소성(block‑structured sparsity)을 활용해 완전 희소 혹은 부분 희소 윈도우를 동적으로 선택, 불필요한 곱셈을 배제한다. (4) 설계 공간 탐색에서는 코어 크기(D×D)와 Legion당 코어 수(C)의 조합을 평가했으며, 8×8 코어 8개(Legion당 64PE) 구성이 입력 대역폭, TFU(Time‑to‑Full‑Utilization), 지연, psum 메모리 요구사항 사이에서 최적의 균형을 이루는 것으로 확인되었다.
성능 평가에서는 두 개의 BitNet 모델(1‑bit 가중치와 2‑bit 가중치)을 대상으로 어텐션 단계의 Q, K, V 프로젝션 및 스코어 계산을 벤치마크했다. 결과는 D‑레기온(8 Legion, 64코어)이 기존 최첨단 가속기 대비 최대 8.2배 낮은 레이턴시, 3.8배 높은 메모리 절감, 3배 수준의 psum 메모리 절감을 달성했음을 보여준다. 또한 32 Legion(256코어) 확장 버전은 Google TPUv4i와 비교해 전체 레이턴시 2.5배 감소, 처리량 2.3배 증가, 메모리 절감 2.7배 향상을 기록하였다. 전력 효율 측면에서도 적응형 정밀도와 희소성 활용 덕분에 동일 주파수(1 GHz)에서 기존 설계 대비 면적·전력·에너지 비용이 크게 낮아졌다.
이와 같이 D‑레기온은 (1) 적응형 정밀도 사시컬 어레이를 통한 연산 밀도 향상, (2) Legion‑단위 병렬 누산기로 psum 메모리 병목 해소, (3) 타일 멀티캐스트와 블록 희소성 기반 스케줄링으로 데이터 재사용 극대화, (4) 설계 공간 탐색을 통한 코어·Legion 최적화라는 네 가지 축을 종합적으로 구현함으로써, 초저정밀 양자화 LLM의 인퍼런스 가속에 필요한 고성능·고효율을 동시에 만족한다는 점이 가장 큰 공헌이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기