LLM 기반 컴파일 최적화로 모델 서빙 비용 절감

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 재학습 없이 활용해 컴파일러 최적화 과정에 컨텍스트‑aware 의사결정을 도입한다. LLM이 제안한 변환을 구조화된 몬테카를로 트리 탐색(MCTS)과 결합해 샘플 효율성을 크게 향상시켰으며, 다양한 신경망 레이어와 하드웨어에서 기존 신경 컴파일러보다 적은 시도 횟수로 평균 5배 이상의 속도 향상을 달성했다.

상세 분석

논문은 모델 서빙 비용을 낮추기 위한 핵심 과제로 컴파일러 최적화의 탐색 공간이 ‘지수적으로 크고 상호 의존적’이라는 점을 지적한다. 이를 해결하기 위해 저자들은 최적화 문제를 유한‑ horizon 마코프 결정 과정(MDP)으로 공식화하고, 각 상태를 현재 프로그램 변형 단계, 행동을 적용 가능한 변환(tiling, fusion, vectorization 등)으로 정의한다. 보상은 목표 함수(예: 레이턴시 감소) 값을 기반으로 하며, 변환 적용은 결정적이므로 전이 확률은 0 또는 1이다.

전통적인 무작위 탐색이나 진화적 검색은 변환 간 비선형 상호작용을 무시해 샘플 효율이 낮다. 이에 저자들은 대형 언어 모델을 ‘컨텍스트‑aware 제안 엔진’으로 활용한다. LLM은 현재 스케줄(이미 적용된 변환 리스트)과 최근 성능 피드백을 프롬프트에 포함시켜, 하드웨어 특성을 고려한 다음 변환 후보를 생성한다. 이 과정은 별도의 파인튜닝 없이 사전 학습된 LLM(예: GPT‑4)만으로 수행된다.

생성된 후보는 MCTS의 트리 정책에 통합된다. MCTS는 UCT(Upper Confidence bound applied to Trees)와 같은 탐색‑활용 균형 전략을 사용해, LLM이 제시한 높은 기대값의 변환을 우선 확장하면서도, 아직 탐색되지 않은 변환도 일정 비율로 시도한다. 롤아웃 단계에서는 빠른 비용 모델을 이용해 변환 시퀀스의 예상 성능을 추정하고, 이 값을 백프로파게이션해 노드 가치 업데이트에 반영한다. 결과적으로 LLM의 ‘체인‑오브‑생각(Chain‑of‑Thought)’ 능력이 트리 탐색의 구조적 탐색력과 결합돼, 기존 신경 컴파일러가 필요로 하는 수천~수만 번의 시도 대비 수백 번 수준의 샘플만으로도 최적에 근접한 솔루션을 찾는다.

실험은 5가지 대표 레이어(Llama‑3‑8B Attention, DeepSeek‑R1 MoE, FLUX Attention, FLUX Convolution, Llama‑4‑Scout MLP)와 5가지 하드웨어(Amazon Graviton2, AMD EPYC 7R13, Apple M2 Pro, Intel Core i9, Intel Xeon E3)를 대상으로 진행됐다. 평균적으로 REASONING COMPILER는 TVM(진화적 탐색 기반) 대비 5.0× 더 높은 속도 향상을 달성했으며, 사용된 샘플 수는 5.8× 적었다. 특히 엔드‑투‑엔드 Llama‑3‑8B 벤치마크에서는 4.0× 속도 향상을 3.9× 적은 샘플로 얻어, 샘플 효율성 5.6× 개선을 기록했다.

한계점으로는 LLM 프롬프트 설계가 도메인에 따라 민감할 수 있고, 비용 모델의 정확도가 낮을 경우 롤아웃 품질이 저하될 위험이 있다. 또한 현재 구현은 변환 후보를 텍스트 형태로 전달하므로, 복잡한 하드웨어‑특화 변환(예: 메모리 계층 최적화)에서는 추가적인 파싱 로직이 필요하다.

향후 연구에서는 (1) 비용 모델을 실시간 프로파일링과 결합해 피드백 루프를 강화하고, (2) 다중 LLM 앙상블을 통해 변환 다양성을 확대하며, (3) 자동 프롬프트 최적화 기법을 도입해 인간 개입을 최소화하는 방향을 제시한다.

LLM 기반 컴파일 최적화로 모델 서빙 비용 절감

초록

상세 분석

댓글 및 학술 토론

의견 남기기