AI‑FPGA 에이전트 기반 실시간 딥러닝 가속 프레임워크
초록
본 논문은 CPU‑GPU 대비 높은 성능·전력 효율을 제공하는 FPGA 위에 AI 추론을 동적으로 오프로드하는 AI‑FPGA Agent 프레임워크를 제안한다. 런타임 소프트웨어 에이전트가 Q‑러닝 기반 스케줄링으로 레이어를 실시간 분할·배치하고, 파라미터화된 양자화 가속기가 고속 추론을 수행한다. 실험 결과, CPU 대비 10배 이상 지연 감소, GPU 대비 2∼3배 전력 효율 향상을 달성했으며 정확도 손실은 0.2% 이하이다.
상세 분석
AI‑FPGA Agent는 하드웨어‑소프트웨어 공동 설계(co‑design) 관점에서 두 가지 핵심 요소를 결합한다. 첫 번째는 호스트 CPU에서 실행되는 소프트웨어 에이전트이며, 이 에이전트는 신경망 그래프를 레이어 단위로 분석하고 연산 강도가 높은 레이어를 FPGA에 오프로드한다. 특히, Q‑learning 기반의 강화학습 루프를 도입해 시스템 상태(s)와 보상(r)을 실시간으로 피드백받아 Q‑테이블을 업데이트하고, ε‑greedy 정책으로 최적의 오프로드 액션을 선택한다. 이 접근법은 정적 스케줄링 방식과 달리 워크로드 특성, 메모리 대역폭, 전력 제한 등 동적 환경 변화에 적응한다는 점에서 큰 장점을 가진다.
두 번째는 파라미터화 가능한 FPGA 가속기 코어이다. 설계자는 비트‑폭, 파이프라인 깊이, 병렬 MAC 유닛 수 등을 사용자 정의 파라미터로 설정할 수 있어, 다양한 모델(예: CNN, LLM)과 양자화 스킴(8‑bit, 4‑bit AWQ 등)에 맞게 하드웨어를 최적화한다. 양자화 연산을 전용 고정소수점 유닛으로 구현함으로써 데이터 전송량을 크게 줄이고, 온‑칩 메모리 활용도를 높여 대역폭 병목을 최소화한다.
실험에서는 Xilinx KV260 보드에 LLaMA‑2‑7B 모델을 4‑bit AWQ 양자화하여 적용했으며, DDR4 메모리 사용률 93%·대역폭 활용도 85%라는 극한 조건에서도 2400 Mbps 직렬 포트를 통해 PL 가속기와 효율적으로 데이터 교환한다. 결과적으로 CPU 기반 베이스라인 대비 평균 10.3배의 레이턴시 감소와 GPU 대비 2.4배~2.9배의 에너지 효율 향상을 기록했으며, 정확도는 FP32 기준 대비 0.18% 감소에 그쳤다.
하지만 몇 가지 한계도 존재한다. Q‑learning 에이전트의 학습 및 탐색 단계에서 발생하는 오버헤드가 명시되지 않았으며, 대규모 멀티‑GPU 클러스터와 비교했을 때 확장성 검증이 부족하다. 또한, 현재 구현은 Xilinx 툴체인과 KV260에 종속적이어서 다른 FPGA 벤더(예: Intel)나 고성능 데이터센터급 보드에 대한 이식성이 제한적이다. 리소스 사용률(루크업 테이블, BRAM, DSP)과 전력 측정 방법에 대한 상세 보고가 없어, 실제 설계자들이 동일한 성능을 재현하기 어려울 수 있다. 마지막으로, 비교 대상이 제한적이며, 최신 동적 스케줄링 프레임워크(예: Vitis AI Runtime, OpenCL 기반 런타임)와의 정량적 비교가 부족하다.
전반적으로 AI‑FPGA Agent는 동적 스케줄링과 파라미터화된 가속기 설계를 결합한 혁신적인 접근법을 제시하지만, 실용적 채택을 위해서는 더 폭넓은 벤치마크, 이식성 강화, 그리고 오버헤드 분석이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기