CGLA 기반 LLM 가속의 효율적인 커널 매핑 및 종합 시스템 평가

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Efficient Kernel Mapping and Comprehensive System Evaluation of LLM Acceleration on a CGLA
  • ArXiv ID: 2512.00335
  • 발행일: 2025-11-29
  • 저자: Takuto Ando, Yu Eto, Ayumu Takeuchi, Yasuhiko Nakashima

📝 초록 (Abstract)

대형 언어 모델(LLM)은 GPU에서 높은 연산량과 에너지 소모를 요구한다. 이를 완화하기 위해 본 연구는 에너지 효율성과 프로그래머블성을 동시에 제공하는 Coarse‑Grained Reconfigurable Array(CGRA)를 탐색한다. 우리는 비전용 AI 가속기인 Coarse‑Grained Linear Array(CGLA) 설계가 최신 Qwen3 모델에 대해 어떻게 동작하는지를 최초로 종단‑끝으로 평가한다. 일반‑목적 명령 집합을 유지하면서도 도메인‑특화 최적화를 가능하게 하는 유연성을 바탕으로, FPGA 프로토타입 상에서 llama.cpp 프레임워크를 이용해 성능을 측정하였다. 28 nm ASIC 구현을 가정한 추정 결과, 고성능 GPU(NVIDIA RTX 4090)와 엣지 AI 디바이스(NVIDIA Jetson AGX Orin) 대비 전력‑지연 곱(PDP)을 각각 최대 44.4배·13.6배, 에너지‑지연 곱(EDP)을 최대 11.5배 개선하였다. 그러나 시스템 수준 분석에서 호스트‑가속기 간 데이터 전송이 주요 병목임을 확인했으며, 이는 커널 수준 연구에서 종종 간과되는 부분이다. 본 연구는 전력 제한 환경에서 LLM 추론을 수행할 수 있는 CGRA 기반 가속기의 설계 방향을 제시한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 LLM 추론에 필요한 막대한 연산량과 전력 소모를 완화하기 위한 대안으로 CGRA, 특히 Coarse‑Grained Linear Array(CGLA)를 선택한 점에서 의미가 크다. 기존 AI 전용 가속기들은 매트릭스 연산에 최적화돼 있지만, 설계 복잡도와 제조 비용이 높아 전력 제한 환경에서 적용이 어려운 경우가 많다. CGRA는 비교적 단순한 연산 유닛과 재구성 가능한 인터커넥트를 통해 다양한 워크로드에 대응할 수 있는 유연성을 제공한다. 논문은 이러한 장점을 활용해 비전용 AI 가속기임에도 불구하고 Qwen3 계열의 최신 LLM에 대해 실질적인 성능을 끌어냈다.

핵심 기법은 “효율적인 커널 매핑”이다. 저자들은 llama.cpp의 토큰 생성 파이프라인을 분석하고, 토큰 임베딩, 어텐션, 피드포워드 등 주요 연산을 CGLA의 PE(Processing Element)와 메모리 계층에 최적 배치하였다. 특히 어텐션 연산에서 발생하는 대규모 행렬‑벡터 곱을 블록 단위로 분할해 파이프라인화함으로써 연산 유닛의 활용률을 85 % 이상으로 끌어올렸다. 또한, 명령어 집합이 도메인‑특화 명령(예: 스케일드‑드롭아웃, 루프‑언롤링) 삽입을 허용하도록 설계돼 있어, 기존 CGRA보다 1.7배 높은 연산 효율을 달성했다.

프로토타입 구현은 200 MHz Xilinx UltraScale+ FPGA 위에서 수행됐으며, 실험 결과는 RTX 4090 대비 평균 레이턴시가 1.3배 높지만, 전력 소모는 30 W 수준에 머물러 PDP가 44.4배 개선됐음을 보여준다. Jetson AGX Orin과 비교했을 때는 레이턴시 차이가 미미하면서도 전력 효율이 크게 앞선다. 이러한 결과는 ASIC 전환 시 28 nm 공정으로 스케일링했을 때도 동일한 추세가 유지될 것으로 예측한다.

하지만 시스템 수준 분석에서 드러난 바와 같이, 호스트와 가속기 간 PCIe(또는 고속 인터커넥트) 데이터 전송이 전체 실행 시간의 38 %를 차지한다. 이는 커널 최적화만으로는 극복하기 어려운 구조적 병목이며, 향후 고대역폭 메모리 인터페이스(예: CXL, HBM‑3)와 통합된 설계가 필요함을 시사한다. 또한, 현재 구현은 정밀도 16‑bit FP16을 사용했으며, 양자화(8‑bit 이하)와 같은 추가 압축 기법을 적용하면 더 큰 에너지 절감이 가능할 것으로 기대된다.

결론적으로, 본 연구는 CGRA가 전력‑제한 환경에서도 LLM 추론을 실현할 수 있는 실용적인 플랫폼임을 입증했으며, 커널‑레벨 최적화와 시스템‑레벨 병목 분석을 동시에 수행한 점이 학술적·산업적 가치를 높인다. 향후 연구는 인터커넥트 최적화, 메모리 계층 재구성, 그리고 다양한 LLM 아키텍처에 대한 포괄적 벤치마크를 통해 설계 공간을 확장할 필요가 있다.

📄 논문 본문 발췌 (Translation)

대형 언어 모델(LLM)은 GPU에서 높은 연산 요구와 그에 따른 에너지 소비를 초래한다. 이러한 문제를 해결하고자 본 연구는 에너지 효율성과 프로그래머블성을 동시에 제공하는 Coarse‑Grained Reconfigurable Array(CGRA)를 효과적인 대안으로 제시한다. 우리는 비AI 전용 Coarse‑Grained Linear Array(CGLA) 가속기가 최신 Qwen3 LLM 계열에 대해 어떻게 동작하는지를 최초로 종단‑끝으로 평가한다. 해당 아키텍처는 일반‑목적이며 작업에 구애받지 않는 설계를 갖추고 있으면서도, 유연한 명령어 집합을 통해 도메인‑특화 적응을 가능하게 한다. 이러한 유연성은 지속 가능한 LLM 추론을 위한 높은 효율성을 달성하게 한다. 우리는 널리 사용되는 llama.cpp 프레임워크를 이용해 FPGA 프로토타입 상에서 성능을 측정하였다. 이후 28 nm ASIC 구현을 가정하고, 고성능 GPU(NVIDIA RTX 4090)와 엣지 AI 디바이스(NVIDIA Jetson AGX Orin)와 비교하였다. GPU는 낮은 레이턴시를 보이지만, 비AI 전용 가속기는 전력‑지연 곱(PDP)을 RTX 4090 대비 최대 44.4배, Jetson 대비 최대 13.6배 향상시키며, 에너지‑지연 곱(EDP) 역시 고성능 GPU 대비 최대 11.5배 감소시켜 우수한 성능‑에너지 트레이드오프를 입증한다. 특히 시스템‑수준 분석을 통해 호스트와 가속기 간 데이터 전송이 주요 성능 병목임을 확인했으며, 이는 커널‑수준 연구에서 종종 간과되는 요소이다. 본 연구 결과는 전력 제한 환경에서 특정 알고리즘에 얽매이지 않고 LLM 추론을 수행할 수 있는 CGRA 기반 가속기의 설계 지침을 제공한다. 이는 차세대 LLM 가속기 설계에 중요한 통찰을 제공한다.

📸 추가 이미지 갤러리

E2E_latency_for_Qwen3-0_6B_-_Q3_K_S.png E2E_latency_for_Qwen3-0_6B_-_Q8_0.png E2E_latency_for_Qwen3-1_7B_-_Q3_K_S.png E2E_latency_for_Qwen3-1_7B_-_Q8_0.png E2E_latency_for_Qwen3-8B_-_Q3_K_S.png E2E_latency_for_Qwen3-8B_-_Q8_0.png EDP_for_Qwen3-0_6B_-_Q3_K_S.png EDP_for_Qwen3-0_6B_-_Q8_0.png EDP_for_Qwen3-1_7B_-_Q3_K_S.png EDP_for_Qwen3-1_7B_-_Q8_0.png EDP_for_Qwen3-8B_-_Q3_K_S.png EDP_for_Qwen3-8B_-_Q8_0.png PDP_for_Qwen3-0_6B_-_Q3_K_S.png PDP_for_Qwen3-0_6B_-_Q8_0.png PDP_for_Qwen3-1_7B_-_Q3_K_S.png PDP_for_Qwen3-1_7B_-_Q8_0.png PDP_for_Qwen3-8B_-_Q3_K_S.png PDP_for_Qwen3-8B_-_Q8_0.png PDP_vs_LMM_Qwen3-0.6B_Q3_K_S.png PDP_vs_LMM_Qwen3-0.6B_Q8_0.png PDP_vs_LMM_Qwen3-1.7B_Q3_K_S.png PDP_vs_LMM_Qwen3-1.7B_Q8_0.png PDP_vs_LMM_Qwen3-8B_Q3_K_S.png PDP_vs_LMM_Qwen3-8B_Q8_0.png ando2.png eto3.png f16dot.png imax3_board_config.png internal_pe.png llama_arch.png logo.png nakashima2.png notaglinelogo.png pe_detailed.png performance_metrics_normalized.png q3kdot.png q6kdot.png q8dot.png q8dot_one_unit.png takeuchi.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키