벤치4HLS: LLM 기반 고수준 합성 코드 자동 평가 프레임워크

벤치4HLS: LLM 기반 고수준 합성 코드 자동 평가 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Bench4HLS는 170개의 검증된 HLS 설계 사례를 모아 LLM이 생성한 HLS 코드를 자동으로 컴파일·시뮬레이션·합성하고, 전력·성능·면적(PPA)까지 정량화하는 종합 벤치마크를 제공한다. 플러그인형 API로 Xilinx Vitis와 Catapult 등 다중 툴 체인을 지원하며, 설계 공간 탐색(DSE)과 다단계 기능 검증을 포함한다. 기존 HLS‑Eval과 차별화된 점은 대규모 데이터셋, PPA 분석, 그리고 실리콘 구현까지 포괄하는 전 과정 자동화이다.

상세 분석

Bench4HLS는 현재 LLM‑to‑HLS 연구가 기능·구문 검증에 머무는 한계를 극복하기 위해 설계된 종합 평가 플랫폼이다. 첫 번째 핵심은 170개의 케이스를 포함한 대규모 데이터셋이다. 이 데이터셋은 작은 커널부터 복합 가속기까지 다양하며, 각 케이스는 자연어 명령문, 합성 가능한 C/C++ HLS 코드, 그리고 검증용 테스트벤치를 3‑tuple 형태로 제공한다. 데이터는 공개 저장소에서 수집·수동 검증 과정을 거쳐 일관된 포맷으로 정제되었으며, 평균 88 LoC(코드 라인)로 기존 벤치마크보다 규모가 크다.

두 번째 특징은 플러그인형 PPA 분석 API이다. Vitis HLS와 Vivado를 연동해 전력, 클럭 주기, 레지스터·DSP·BRAM 사용량 등을 자동 추출하고, Catapult HLS에서도 동일 인터페이스로 평가가 가능하도록 설계했다. 이를 통해 동일 설계에 대해 툴 체인별 QoR(품질‑결과) 차이를 정량적으로 비교할 수 있다.

세 번째로 Bench4HLS는 설계 공간 탐색(DSE) 기능을 내장한다. 사용자는 고정된 자원·예산 제약 하에 파레토 최적점을 탐색하도록 설정할 수 있으며, 자동으로 여러 pragma 조합·파이프라인 깊이·메모리 파티셔닝을 변형해 최적화된 설계 후보를 생성한다. DSE 결과는 ΔLatency, ΔFF Utilization 등 변화량 형태로 보고되어, LLM이 생성한 코드의 개선 여지를 직관적으로 파악한다.

또한, 검증 파이프라인은 세 단계로 구성된다. (1) 컴파일 단계에서 구문 오류를 즉시 차단하고, (2) 사전 합성 시뮬레이션을 통해 기능적 정확성을 확인하며, (3) 합성 후 포스트‑시뮬레이션 및 RTL 레벨 검증을 수행한다. 이 다단계 검증은 타임링 클린 디자인만을 평가 대상으로 삼아, 실제 FPGA 구현 시 발생할 수 있는 타이밍 위반을 사전에 차단한다.

Bench4HLS는 현재 GPT‑5, QwenCoder, Llama 등 다양한 상용·오픈소스 모델을 플러그인 API로 연결해 실험을 진행했으며, 모델‑under‑test(MUT)의 코드 생성 능력을 기능·합성 가능성·PPA 효율성 측면에서 종합적으로 비교할 수 있다. 기존 HLS‑Eval이 52~94개의 작은 케이스와 제한된 합성·PPA 분석만 제공한 반면, Bench4HLS는 170개의 대규모 케이스와 플러그인형 다툴 체인 지원, DSE까지 포함해 실무 적용 가능성을 크게 확대한다.

결과적으로 Bench4HLS는 LLM 기반 HLS 자동화 연구에 필요한 “데이터·툴·평가” 삼위일체 인프라를 제공함으로써, 향후 LLM이 설계자 없이도 고성능 FPGA 가속기를 자동 생성할 수 있는 기반을 마련한다.


댓글 및 학술 토론

Loading comments...

의견 남기기