소프트 CGRA 오버레이를 이용한 자동 중첩 루프 가속 프레임워크

소프트 CGRA 오버레이를 이용한 자동 중첩 루프 가속 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 FPGA 위에 구축된 소프트 코어 그레인드 리컨피규러블 어레이(SCGRA) 오버레이를 활용하여, 고수준 자원 제한 하에서 중첩 루프를 자동으로 가속화하는 프레임워크를 제안한다. 루프 언롤링, 그룹화, 통신 버퍼 크기 등을 설계 파라미터로 삼아 분석 모델을 기반으로 최적 구성을 탐색하고, 10~20분의 추가 툴 실행 시간으로 기본 가속기 대비 최대 5배, ARM 기반 소프트웨어 대비 최대 10배의 성능 향상을 달성한다.

**

상세 분석

**
이 연구는 FPGA 설계 생산성을 높이기 위해 오버레이 계층을 도입하고, 그 위에 정규적인 SCGRA 구조를 배치함으로써 컴파일 시간과 비트스트림 재사용성을 크게 향상시킨다. 핵심 아이디어는 설계 공간을 ‘루프 언롤링 팩터(u)’, ‘그룹화 팩터(g)’, ‘SCGRA 행·열(r, c)’ 등 제한된 파라미터 집합으로 축소하고, 각 파라미터 조합에 대해 분석 모델을 이용해 연산 시간(DFG Compute Time)과 통신 시간(DMA Latency)을 정량화한다. 연산 시간은 PE 수와 데이터 폭, 파이프라인 깊이에 비례하는 선형식으로 근사되며, 통신 시간은 전송량에 대한 조각별 선형 함수(DMA(x))로 모델링한다. 이러한 모델은 실제 스케줄링 결과와 높은 일치도를 보이며, 설계 탐색 단계에서 시뮬레이션 없이 빠른 비용 추정을 가능하게 한다.

제안된 두 단계 최적화 흐름은 먼저 ‘서브 DSE’를 수행해 루프 실행 시간에 가장 큰 영향을 미치는 u와 (r, c) 조합을 찾고, 그 후 자원 제약(BRAM, DSP, LUT, FF)과 메모리 버퍼 크기 제한을 고려해 최종 파라미터를 선정한다. 이 과정은 전체 설계 공간을 완전 탐색하는 것에 비해 100배 이상 빠르며, 10~20분 안에 최적 구성을 도출한다. 또한, 커스텀 오버레이와 드라이버를 자동 생성해 기존 QuickDough 라이브러리와 연동함으로써, 가속기 재사용성을 유지하면서도 애플리케이션 별 맞춤형 성능을 확보한다. 실험 결과는 ZedBoard의 ARM 코어 대비 최대 10배, 기본 QuickDough 가속기 대비 최대 5배의 속도 향상을 보여, 오버레이 기반 가속기의 성능‑오버헤드 트레이드오프 문제를 효과적으로 해결했음을 입증한다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기