진화적 커널 최적화를 위한 통합 레시피 커널스미스
커널스미스는 평가 기반 진화 에이전트와 진화 지향 사후 학습을 결합한 프레임워크로, GPU 커널을 자동으로 생성·개선한다. 안정적인 백엔드 평가 서비스를 통해 컴파일·정확도·속도 향상을 정량화하고, 긴 탐색 궤적을 고수익 단계로 압축해 모델을 로컬 개선자로 훈련한다. Nvidia Triton과 MetaX MACA 환경 모두에서 최첨단 벤치마크 성능을 달성했으며, 실제 배포 시스템에도 적용되었다.
저자: He Du, Qiming Ge, Jiakai Hu
본 논문은 고성능 GPU 커널 및 연산자 자동 생성을 목표로 하는 ‘Kernel‑Smith’ 프레임워크를 제안한다. 기존 LLM 기반 접근법은 한 번에 최적 커널을 생성하려 하지만, 실제 엔지니어링에서는 여러 차례의 반복적인 튜닝과 테스트가 필수적이다. 이를 해결하기 위해 저자들은 (1) 평가 기반 진화형 에이전트와 (2) 진화 지향 사후 학습이라는 두 축을 결합한 통합 시스템을 설계하였다.
첫 번째 축인 진화형 에이전트는 실행 가능한 후보 프로그램 집단을 유지하고, 매 세대마다 상위 성능 및 다양성을 보장하는 아카이브에서 샘플링한다. 후보는 ‘컴파일 성공 여부’, ‘정확도(수치 일치)’, ‘속도 향상 비율’이라는 세 가지 핵심 메트릭을 구조화된 피드백 형태로 반환받는다. 평가 서비스는 Nvidia Triton(NVIDIA GPU)과 MetaX MACA(MetaX GPU) 전용으로 구현되어, 하드웨어별 컴파일러 특성과 측정 노이즈를 고려한다. 고정된 계산 그래프와 반복 측정을 통해 노이즈를 억제하고, 이상치 제거 절차를 거쳐 신뢰성 있는 보상 신호를 생성한다. 이러한 설계는 진화 과정에서 서브옵티멀한 해가 유지되거나 유망한 해가 조기에 사라지는 현상을 방지한다.
두 번째 축인 진화 지향 사후 학습은 긴 탐색 궤적을 ‘고수익 단계’만 남겨 단계별 감독 및 강화학습 신호로 압축한다. 구체적으로, 진화 과정에서 발생한 변형 중 ‘정확성을 유지하면서 속도 향상이 크게 발생한’ 변형만을 선택한다. 이러한 변형은 모델의 학습 데이터로 활용되어, 불필요한 중간 단계나 무의미한 수정에 대한 학습 비용을 절감한다. 강화학습에서는 변형을 행동, 속도 향상 비율을 보상으로 설정해 정책을 최적화한다. 결과적으로 모델은 ‘강력한 로컬 개선자’ 역할을 수행하게 되며, 진화 루프 내에서 추가적인 테스트 시간 연산을 효율적으로 활용한다.
알고리즘적 측면에서는 Island 기반 진화와 MAP‑Elites를 결합한 구조를 채택한다. Island는 탐색 공간을 부분적으로 독립적인 서브그룹으로 나누어 병렬 탐색을 가능하게 하고, MAP‑Elites는 커널 복잡도와 종합 점수(컴파일·정확도·속도)를 2차원 특징 공간에 매핑해 다양한 고품질 해를 유지한다. OpenEvolve를 기반으로 구현된 에이전트는 코드 변형·재조합·변이 연산을 LLM 프롬프트에 직접 삽입해 인간 엔지니어가 수행하던 다단계 디버깅 과정을 자동화한다. 평가 단계에서는 단순 스칼라 보상이 아니라 컴파일 상태, 오류 로그, 하드웨어 메타데이터 등 풍부한 정보를 제공해 모델이 실패 사례에서도 학습하도록 설계하였다.
실험은 두 가지 백엔드에서 수행되었다. Nvidia Triton 환경에서는 KernelBench을 기준으로 평균 속도 향상 비율이 기존 최첨단 모델(Gemini‑3.0‑pro, Claude‑4.6‑opus)을 크게 앞섰으며, 진화 단계별 최고 점수 곡선이 전체 모델군을 상회하는 ‘상위 봉투’ 형태를 형성한다. MetaX MACA 환경에서도 MACA‑30B 모델이 DeepSeek‑v3.2‑think, Qwen3‑235B‑2507‑think 등을 능가하였다. 특히 동일한 학습 파이프라인을 재사용함으로써 이기종 하드웨어에 대한 적응 비용이 최소화된 점이 실용적이다.
마지막으로, 커널스미스는 연구 단계에 머무르지 않고 실제 제품에 적용되었다. SGLang과 LMDeploy에 대한 풀 리퀘스트가 받아들여져, 자동 생성된 고성능 커널이 실제 추론 엔진에 통합되었다. 이는 LLM 기반 커널 최적화가 제어된 벤치마크를 넘어 실운영 환경에서도 신뢰성을 확보할 수 있음을 입증한다. 전체적으로, 커널스미스는 평가 안정성, 탐색 다양성, 고수익 변형 학습이라는 세 축을 조화시켜 GPU 커널 자동 최적화 분야에 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기