GPU 설계 탐색을 혁신하는 LLM 기반 LUMINA

본 논문은 대규모 언어 모델(LLM) 추론 워크로드에 최적화된 GPU 설계 탐색(DSE)의 어려움을 해결하기 위해 LLM‑기반 프레임워크인 LUMINA를 제안한다. GPU 설계 공간은 코어 수, 캐시 계층, 인터커넥트, 메모리 대역폭 등 수십 개의 파라미터로 구성되어 4.7 백만 개 이상의 후보 설계가 존재한다. 기존의 전문가‑주도 휴리스틱은 높은 도메인 지식이 필요하고 새로운 아키텍처에 일반화하기 어렵으며, 머신러닝 기반 방법은 수천 개의 고정밀 시뮬레이션 샘플을 요구해 비용이 크게 든다. LUMINA는 이러한 한계를 극복하기 위해 LLM을 활용해 두 단계의 자동 지식 획득과 샘플‑효율적인 탐색을 수행한다. 첫 단계인 Architectural Heuristic Knowledge(AHK) 획득은 Qualitative Engine(QualE)와 Quantitative Engine(QuanE)로 구성된다. QualE는 LLM의 자연어 및 코드 이해 능력을 이용해 시뮬레이터 소스 코드를 정적 분석하고, 각 설계 파라미터가 성능(TFT, TPOT) 및 면적에 미치는 구조적 의존성을 Influence Map 형태로 도출한다. 이 단계는 설계 공간을 구조적으로 제한해 이후 정량적 분석 범위를 크게 축소한다. QuanE는 Influence Map을 기반으로 자동 민감도 실험을 수행한다. LLM이 마이크로벤치마크 코드를 생성·실행해 파라미터를 ±1 단위로 변동시켰을 때 성능·면적 변화량을 측정하고, 이를 정량적 영향값으로 매핑한다. 이렇게 얻은 AHK는 파라미터 간 상호작용과 비선형 효과를 포함한 초기 사전 지식을 제공한다. 두 번째 단계는 전략 기반 탐색이다. Strategy Engine(SE)는 시뮬레이션 결과에서 가장 큰 병목을 식별하고, AHK에 정의된 영향값을 활용해 해당 병목을 완화할 설계 변수를 선택한다. 예를 들어 인터커넥트 혼잡이 주요 병목이면 링크 수를 늘리고, 동시에 코어 수를 감소시키는 식으로 자원을 재배치한다. Exploration Engine(EE)는 SE가 제시한 설계 변수를 시뮬레이터에 전달하고, 시뮬레이션 결과를 Trajectory Memory(TM)에 저장한다. TM에 누적된 피드백을 바탕으로 AHK를 지속적으로 재정제하는 리파인먼트 루프가 동작한다. 이 루프는 실제 측정값과 정량적 영향값 사이의 차이를 자동 보정함으로써, 초기 정성·정량 지식이 실제 설계 공간의 복잡성을 반영하도록 만든다. LUMINA는 이러한 순환 과정을 20번의 샘플만에 수행해 4.7 백만 후보 중 6개의 설계가 NVIDIA A100 대비 TFT/Area와 TPOT/Area에서 각각 1.805배·1.770배, 0.592배·0.948배의 향상을 보이며 면적도 감소함을 확인했다. 실험 결과는 LUMINA가 기존 ML 기반 베이스라인 대비 17.5배 높은 샘플 효율성을 달성하고, 파레토 하이퍼볼륨(PHV)을 32.9% 개선함을 보여준다. 특히, “코어 카운트를 줄이고 텐서 연산 유닛과 메모리 대역폭에 재배치”하는 비직관적 전략을 발견함으로써, 전통적인 전문가 휴리스틱이 놓치기 쉬운 복합적인 병목 상호작용을 포착한다는 점에서 의미가 크다. 마지막으로 논문은 LLM 기반 DSE를 체계적으로 평가하기 위한 DSE Benchmark를 제시한다. 이 벤치마크는 LLM의 병목 귀인, 성능·면적 예측, 파라미터 튜닝 세 가지 핵심 역량을 측정하고, 모델 선택 및 파인튜닝에 대한 재현 가능한 기준을 제공한다. 전체적으로 LUMINA는 고차원 GPU 설계 공간에서 LLM의 코드 이해와 추론 능력을 활용해 샘플 효율성을 크게 높이고, 설계 품질을 향상시키는 새로운 패러다임을 제시한다.

GPU 설계 탐색을 혁신하는 LLM 기반 LUMINA

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기