하이브리드 CPU GPU 플랫폼을 위한 메모리 제한 벡터화 및 스케줄링
본 논문은 메모리 제약이 있는 임베디드 시스템에서 SDF(동기 데이터플로우) 그래프를 대상으로, CPU와 GPU를 혼합한 하이브리드 플랫폼에서 파이프라인·태스크·데이터 수준의 병렬성을 동시에 활용하는 벡터화와 스케줄링 기법을 제안한다. 새로운 Σ‑스케줄링 전략과 메모리‑제한 벡터화 알고리즘을 통해 동일 메모리 한계 하에서 기존 방법보다 높은 처리량을 달성함을 실험적으로 입증한다.
저자: Shuoxin Lin, Jiahao Wu, Shuvra S. Bhattacharyya
본 논문은 현대 임베디드 시스템에서 CPU와 GPU를 동시에 사용하는 하이브리드 플랫폼(HCGP)의 설계와 최적화에 초점을 맞추고 있다. 이러한 시스템은 디지털 신호 처리(DSP)와 같은 고처리량 애플리케이션에서 파이프라인, 태스크, 데이터 수준의 병렬성을 모두 활용해야 하지만, 시스템 수준의 메모리 제한과 컨텍스트 전환 비용 때문에 설계가 복잡해진다. 저자들은 이러한 문제를 해결하기 위해 SDF(동기 데이터플로우) 그래프를 기반으로 한 벡터화와 스케줄링 기법을 제안한다.
먼저, 논문은 기존 연구를 검토한다. 이전의 SDF 스케줄링은 주로 멀티코어 CPU 환경에서 태스크와 파이프라인 병렬성을 최적화했으며, GPU와 같은 SIMD 아키텍처를 고려한 벡터화는 제한적이었다. 또한 메모리 제약을 명시적으로 다루지 않은 경우가 많았다. 이러한 한계를 극복하기 위해 저자들은 VSTO(벡터화‑스케줄링 처리량 최적화) 문제를 정의하고, 메모리 제한 하에서 가능한 벡터화 정도를 수학적으로 모델링한다.
VSTO 문제 정의에서는 다음과 같은 요소를 포함한다. (1) 액터 v의 반복 횟수 q(v)와 벡터화 정도 b의 관계를 정의하여, b가 q(v)의 인수이거나 배수인 경우에만 허용한다(alwb 집합). (2) 벡터화된 액터 v_b는 입력 토큰 소비량을 b배, 출력 토큰 생산량을 b배로 스케일링한다. (3) 각 에지 e에 대해 최소 버퍼 요구량 mbr(e)=prd(e)+cns(e)−gcd(prd(e),cns(e))를 계산하고, 전체 그래프의 최소 버퍼 요구량 mbr(G)를 구한다.
이후 두 가지 핵심 알고리즘이 제시된다. 첫 번째는 메모리 제한을 만족하면서 각 액터에 최적의 벡터화 정도를 할당하는 메모리‑제한 벡터화 알고리즘이다. 이 알고리즘은 각 액터별 가능한 b 값을 탐색하고, 전체 버퍼 사용량이 주어진 메모리 한계 이하가 되도록 조합을 선택한다. 탐색 과정에서 정수 선형 계획법(ILP)과 휴리스틱을 결합해 계산 복잡도를 낮춘다.
두 번째는 Σ‑스케줄링 전략이다. 여기서는 CPU 코어와 GPU 디바이스를 각각 P={p1,…,pN‑1,pN}으로 모델링하고, 각 액터의 실행 시간 모델을 구축한다. CPU와 GPU의 실행 시간은 벡터화 정도에 따라 다르게 스케일링되며, H2D/D2H 전송 오버헤드와 동기화 비용도 포함한다. Σ‑스케줄링은 각 액터를 어느 프로세서에 할당할지 결정하면서, 전체 처리량(throughput)을 최대화하고, 동시에 메모리 사용량을 제한한다. 이때 정적 버퍼 할당 모델을 사용해 실행 중 버퍼 오버플로우를 방지한다.
제안된 기법의 유효성을 검증하기 위해 두 가지 실험이 수행되었다. 첫 번째는 무작위로 생성한 다양한 크기의 SDF 그래프(수백~수천개의 액터)에서 기존 벡터화·스케줄링 방법과 비교한 것이다. 동일 메모리 제한 하에서 제안 기법은 평균 1.8배, 최악의 경우 2.5배까지 처리량을 향상시켰으며, 메모리 사용량은 30% 이하로 감소했다. 두 번째는 실제 OFDM 수신기 시스템에 적용한 사례 연구이다. OFDM 수신기는 복잡한 필터링·FFT·디코딩 단계가 포함된 전형적인 DSP 워크로드이며, 기존 설계에서는 GPU 활용도가 낮아 CPU에 과부하가 발생했다. 제안 기법을 적용한 결과, GPU에 데이터 병렬성이 높은 FFT와 필터링을 할당하고, CPU에는 제어·디코딩을 배치함으로써 전체 처리량이 2.1배 증가하고, 실시간 처리 요구사항을 만족시켰다.
논문의 주요 기여는 다음과 같다. (1) 메모리 제약을 명시적으로 고려한 SDF 벡터화 모델을 정형화하였다. (2) 메모리‑제한 벡터화와 Σ‑스케줄링을 결합한 통합 최적화 프레임워크를 제시하였다. (3) 실제 임베디드 DSP 애플리케이션에 적용하여 실질적인 성능 향상을 입증하였다. (4) 기존 연구가 다루지 않았던 GPU‑중심 데이터 병렬성 활용과 CPU‑GPU 간 전송 오버헤드 모델링을 포함시켜, 하이브리드 플랫폼 설계에 필요한 전반적인 설계 흐름을 제공한다. 향후 연구에서는 사이클이 있는 SDF 그래프, 다중 GPU 환경, 동적 메모리 할당 모델 등을 확장하여 보다 복잡한 시스템에도 적용 가능하도록 할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기