탄력형 이종 CGRA 레이아웃 최적화 프레임워크 HeLEx
본 논문에서는 이질적이고 공간적으로 구성된 탄력형 거친 입자 재구성 배열(CGRAs)의 기능적 레이아웃을 결정하는 HeLEx 프레임워크를 제시한다. 입력 데이터 흐름 그래프(DFG) 집합과 목표 CGRA가 주어지면, 프레임워크는 모든 처리 요소(PE)가 DFG의 모든 연산을 지원하는 완전 레이아웃으로 시작한다. 이후 분기‑한정(BB) 탐색을 이용해 PE에서
초록
본 논문에서는 이질적이고 공간적으로 구성된 탄력형 거친 입자 재구성 배열(CGRAs)의 기능적 레이아웃을 결정하는 HeLEx 프레임워크를 제시한다. 입력 데이터 흐름 그래프(DFG) 집합과 목표 CGRA가 주어지면, 프레임워크는 모든 처리 요소(PE)가 DFG의 모든 연산을 지원하는 완전 레이아웃으로 시작한다. 이후 분기‑한정(BB) 탐색을 이용해 PE에서 불필요한 연산을 제거하면서 입력 DFG가 최종 이종 CGRA에 성공적으로 매핑될 수 있도록 보장한다. 실험에서는 12개의 DFG와 9가지 목표 CGRA 크기에 대해 평가했으며, 평균 68.7%의 연산 수 감소를 달성해 면적을 거의 70% 감소시키고 전력을 51% 이상 절감하였다. HeLEx가 생성한 CGRA는 이론적 최소 CGRA와 평균 6.2% 차이만을 보이며, 최신 두 프레임워크와 비교했을 때 연산 수 감소율이 최대 2.6배에 이른다.
상세 요약
HeLEx는 기존의 균일한 CGRA 설계가 갖는 과잉 자원 문제를 근본적으로 해결하고자 고안된 최적화 도구이다. 전통적인 CGRA는 모든 PE가 동일한 연산 집합을 지원하도록 설계되기 때문에, 실제 응용 프로그램이 요구하는 연산보다 훨씬 많은 하드웨어가 배치된다. 이는 실리콘 면적, 전력 소모, 설계 복잡도 측면에서 비효율을 초래한다. HeLEx는 이러한 비효율을 최소화하기 위해 두 단계의 접근 방식을 채택한다. 첫 번째 단계에서는 입력된 DFG 집합을 분석해 전체 연산 요구량을 파악하고, 모든 PE가 모든 연산을 수행할 수 있는 ‘풀 레이아웃’을 생성한다. 두 번째 단계에서는 분기‑한정(branch‑and‑bound) 알고리즘을 적용해 각 PE에 할당된 연산을 점진적으로 제거한다. 이 과정에서 핵심 제약 조건은 ‘모든 DFG가 여전히 매핑 가능해야 한다’는 점이다. BB 탐색은 현재 상태에서 가능한 최소 연산 집합을 추정하고, 그보다 더 많은 연산을 제거하면 매핑 실패가 발생한다는 사실을 이용해 탐색 공간을 효율적으로 축소한다. 결과적으로 HeLEx는 연산 수를 크게 줄이면서도 기능적 완전성을 유지한다. 실험 결과는 12개의 대표적인 DFG와 9가지 서로 다른 CGRA 규모에 대해 일관된 성능 향상을 보여준다. 평균 68.7%의 연산 감소는 면적 감소율 70%에 근접하며, 전력 절감도 51% 이상이다. 특히 HeLEx가 생성한 이종 CGRA는 이론적으로 최소한의 연산 수와 평균 6.2% 차이만을 보이므로, 거의 최적에 가까운 설계임을 입증한다. 또한 기존 최첨단 프레임워크와 비교했을 때 연산 감소율이 최대 2.6배에 달해, 설계 비용과 시간 절감 측면에서도 큰 이점을 제공한다. 이러한 결과는 이종 CGRA 설계가 앞으로 다양한 임베디드 및 고성능 컴퓨팅 분야에서 실용화될 가능성을 크게 높인다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...