RISC V 벡터 파이프라인에 디지털 인메모리 컴퓨팅 통합 딥러닝 가속기
초록
본 논문은 RISC‑V 벡터 확장에 디지털 인‑메모리 컴퓨팅(DIMC) 유닛을 파이프라인 단계에 직접 결합하고, 네 개의 맞춤형 벡터 명령어를 정의해 ResNet‑50 추론을 137 GOP/s, 217배 가속하는 설계를 제시한다.
상세 분석
이 연구는 엣지 AI 환경에서 메모리 대역폭과 전력 제한을 극복하기 위해, 전통적인 벡터 연산과 인‑메모리 연산을 하나의 실행 단계에 병합한다는 근본적인 설계 철학을 채택한다. 핵심은 32 KiB SRAM 기반 DIMC 타일을 RISC‑V 벡터 코어의 EX 단계에 전용 실행 레인으로 삽입하고, 기존 벡터 레지스터 파일(VRF)과 256‑bit 데이터 스트립을 직접 연결함으로써 데이터 이동을 최소화한다. DIMC는 8T 1R1W 셀 배열을 4개의 서브‑어레이로 구성해 256개의 4‑bit MAC 연산을 동시에 수행하거나, 정밀도 재구성을 통해 512개의 2‑bit 혹은 1024개의 1‑bit MAC을 처리할 수 있다. 이는 엣지 디바이스가 요구하는 정밀도‑효율 트레이드‑오프를 하드웨어 수준에서 동적으로 조정할 수 있게 한다.
논문은 네 개의 커스텀 명령어를 제안한다. 두 개는 DIMC에 데이터를 로드하는 “load‑row”와 “load‑buffer” 명령이며, 나머지 두 개는 연산 시작과 결과 쓰백을 제어하는 “compute‑start”와 “write‑back”이다. 이 명령어들은 RISC‑V 벡터 인코딩 규칙을 그대로 따르면서, 전용 opcode와 확장 필드를 사용해 파이프라인 해저드와 타이밍 충돌을 최소화한다. 특히, 명령어 디코딩 단계에서 DIMC 전용 제어 신호를 생성하고, 벡터 마스크와 nvec 필드를 활용해 부분적인 행(row) 선택 및 파이프라인 스케줄링을 가능하게 함으로써, 다양한 컨볼루션 패턴(예: dilated, grouped, depth‑wise)에도 유연하게 대응한다.
성능 평가에서는 산업용 RISC‑V 벡터 코어(Zve32x, VLEN=64, ELEN=32)를 기반으로 한 시뮬레이션 환경에서 ResNet‑50 전체 레이어를 실행하였다. 단일 DIMC 타일만 탑재했음에도 불구하고 피크 137 GOP/s를 달성했으며, 베이스라인 코어 대비 217배, 면적 정규화 기준에서는 50배 이상의 가속 효과를 보였다. 전력 측정은 공개되지 않았지만, DIMC가 SRAM 기반이므로 기존 DRAM‑to‑CPU 데이터 전송에 비해 수십 배 낮은 에너지 비용을 기대할 수 있다.
또한, 저자는 기존 연구와 비교해 두드러진 차별점을 강조한다. AI‑PiM과 같은 스칼라 파이프라인에 긴밀히 결합된 설계는 병렬성에 한계가 있었고, VECIM은 벡터 레지스터 파일에 CIM을 삽입했지만 연산 유닛 자체가 제한적이었다. 반면, 본 설계는 벡터 연산과 인‑메모리 연산을 동일한 실행 단계에서 병렬로 수행하도록 하여, 데이터 재배열 비용을 최소화하고, 벡터 명령어 집합을 그대로 활용함으로써 소프트웨어 호환성을 유지한다.
마지막으로 확장성을 논의한다. 현재는 단일 DIMC 타일만 구현했지만, 동일한 파이프라인 구조에 다중 타일을 추가하면 메모리 대역폭과 연산량을 선형적으로 확장할 수 있다. 또한, 커스텀 명령어 세트를 표준 RISC‑V 확장으로 제안함으로써 향후 다른 벡터 코어나 프로세서 파운데이션에 쉽게 이식될 가능성을 열어두었다.
요약하면, 이 논문은 벡터 프로세서와 디지털 인‑메모리 컴퓨팅을 하나의 파이프라인에 결합함으로써, 엣지 AI 가속기에 필요한 고성능·고효율·프로그래머블 특성을 동시에 만족시키는 새로운 설계 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기