GPU HBM 근접 처리로 스파스 행렬 곱셈 가속화

GPU HBM 근접 처리로 스파스 행렬 곱셈 가속화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 GPU의 고대역폭 메모리(HBM)와 근접 처리 유닛을 결합한 가속기인 AIA(Acceleration of Indirect Memory Access)를 설계·구현한다. 해시 기반 3단계 SpGEMM 알고리즘과 AIA를 하드웨어‑소프트웨어 공동 설계하여, 그래프 수축·마크오프 클러스터링·GNN 학습 등 다양한 스파스 행렬‑행렬 곱셈 워크로드에서 cuSPARSE 대비 평균 30 %~76 %의 실행 시간 감소와 1.4×~4.2×의 속도 향상을 달성하였다.

상세 분석

이 연구는 스파스 행렬‑행렬 곱셈(SpGEMM)의 핵심 병목인 불규칙 메모리 접근과 출력 희소도 예측 불가능성을 해결하기 위해 두 가지 혁신을 제시한다. 첫째, 해시 기반 멀티‑페이즈 알고리즘은 행‑그루핑, 메모리 할당, 누적이라는 세 단계로 작업을 분할한다. 행‑그루핑 단계에서는 입력 행을 중간 곱셈 수(IP) 기준으로 로그 구간에 배치하고, 이를 기반으로 워프당 할당 스레드 수를 동적으로 조정한다(PWPR, TBPR). 이렇게 하면 워크로드가 고르게 분산되어 GPU 코어의 활용도가 크게 향상된다. 둘째, AIA는 HBM 스택 바로 아래에 위치한 경량 연산 유닛을 도입해 ‘범위 간접 접근(ranged indirect access)’을 순차 스트림으로 변환한다. 기존 GPU 코어는 두 단계의 인덱싱(x


댓글 및 학술 토론

Loading comments...

의견 남기기