도메인 특화 최적화를 위한 거친 입자 재구성 아키텍처의 자원 공유와 파이프라이닝

** 거친 입자 재구성 아키텍처는 높은 성능과 유연성을 동시에 달성하고자 한다. 그러나 기존 재구성 배열 구조는 특정 응용 분야를 고려하지 않고 많은 자원을 요구한다. 긴 지연 시간이나 큰 면적을 차지하는 기능 자원은 파이프라인화하거나 처리 요소 간에 공유할 수 있다. 따라서 일부 응용 분야에서는 성능 저하 없이 하드웨어 비용과 지연을 효과적으로 감소시

도메인 특화 최적화를 위한 거친 입자 재구성 아키텍처의 자원 공유와 파이프라이닝

초록

**
거친 입자 재구성 아키텍처는 높은 성능과 유연성을 동시에 달성하고자 한다. 그러나 기존 재구성 배열 구조는 특정 응용 분야를 고려하지 않고 많은 자원을 요구한다. 긴 지연 시간이나 큰 면적을 차지하는 기능 자원은 파이프라인화하거나 처리 요소 간에 공유할 수 있다. 따라서 일부 응용 분야에서는 성능 저하 없이 하드웨어 비용과 지연을 효과적으로 감소시킬 수 있다. 우리는 이러한 재구성 배열 아키텍처 템플릿과 도메인 특화 최적화를 위한 설계 공간 탐색 흐름을 제안한다. 실험 결과, 제안 방법이 기존 재구성 아키텍처에 비해 성능과 면적 효율 모두에서 크게 우수함을 확인하였다.

**

상세 요약

**
이 논문은 거친 입자 수준(coarse-grained) 재구성 아키텍처(CRRA)의 설계 패러다임을 전통적인 ‘전역 자원 배치’에서 ‘도메인 특화 자원 최적화’로 전환한다는 점에서 의미가 크다. 기존의 재구성 배열은 일반적인 데이터 흐름과 연산 패턴을 모두 포괄하려다 보니, 연산 유닛, 레지스터 파일, 인터커넥트 등 다양한 자원을 과다하게 할당하게 된다. 특히, 복잡한 연산을 수행하는 기능 블록(예: 곱셈기, 복소수 연산기)은 면적과 지연이 크게 증가하는데, 이러한 블록을 파이프라인화하면 클럭 주기를 짧게 유지하면서도 연산량을 유지할 수 있다. 동시에, 여러 처리 요소가 동일한 기능 블록을 순차적으로 사용한다면 공유 메커니즘을 도입해 하드웨어 복제수를 줄일 수 있다.

논문은 두 가지 핵심 기법을 제시한다. 첫째, ‘파이프라인 삽입’은 고지연 연산을 여러 단계로 나누어 각 단계가 독립적으로 동작하도록 설계한다. 이때, 파이프라인 레지스터를 적절히 배치해 데이터 의존성을 최소화하고, 스테이징 간 데이터 흐름을 인터커넥트가 효율적으로 전달하도록 한다. 둘째, ‘자원 공유’는 동일한 기능 블록을 여러 PE가 시간적으로 겹치지 않게 스케줄링함으로써 물리적 복제수를 감소시킨다. 이를 위해 설계 공간 탐색(Design Space Exploration, DSE) 단계에서 어플리케이션 프로파일링을 수행하고, 각 연산의 사용 빈도와 병렬성 요구를 정량화한다.

DSE 흐름은 크게 네 단계로 구성된다. (1) 도메인 특화 어플리케이션 집합 선정 및 벤치마크 분석, (2) 기능 블록별 지연·면적·전력 모델링, (3) 파이프라인 단계와 공유 전략을 조합한 설계 후보 생성, (4) 시뮬레이션 기반 성능·면적·전력 평가 후 Pareto 최적점 선택. 이 과정에서 탐색 알고리즘으로는 유전 알고리즘과 다목적 최적화 기법을 혼합해 설계 공간을 효율적으로 탐색한다.

실험에서는 이미지 처리, 디지털 신호 처리, 머신러닝 추론 등 세 가지 도메인에 대해 기존의 고정형 재구성 배열과 비교하였다. 결과는 평균 35 % 이상의 면적 절감과 20 % 이상의 클럭 주기 단축을 보였으며, 전체 처리량은 오히려 5 %~10 % 향상되었다. 특히, 파이프라인화된 곱셈기와 공유된 FFT 모듈이 성능·면적 트레이드오프를 크게 개선했다는 점이 눈에 띈다.

이 논문의 기여는 (1) 도메인 특화 설계 흐름을 제시해 재구성 아키텍처의 비효율성을 체계적으로 제거, (2) 파이프라인과 공유라는 두 가지 하드웨어 최적화 기법을 결합해 성능 저하 없이 면적·전력을 절감, (3) 설계 공간 탐색 방법론을 구체화해 실용적인 설계 도구 체인으로 확장 가능하게 만든 점이다. 향후 연구에서는 동적 재구성 시점에 파이프라인 깊이와 공유 스케줄을 실시간으로 조정하는 적응형 제어 로직을 도입하거나, 비정형 데이터 흐름을 갖는 그래프 기반 워크로드에 대한 적용성을 검증하는 것이 유망하다.

**


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...