LLM 추론 최적화를 위한 변동성 모델링 활용

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Hugging Face Transformers 라이브러리의 생성 하이퍼파라미터를 특징 기반 변동성 모델(FM)로 형식화하고, t‑wise 및 무작위 샘플링을 통해 대표 구성을 추출한다. 각 구성에 대해 에너지 소비, 지연시간, 정확도를 측정하고, 머신러닝 모델로 예측함으로써 제한된 실험만으로도 전체 구성 공간의 행동을 추정한다. 결과는 변동성 모델링이 LLM 추론 설정의 복잡성을 효과적으로 관리하고, 최적의 트레이드오프와 정확한 예측을 가능하게 함을 보여준다.

상세 분석

이 연구는 소프트웨어 공학의 변동성 관리 기법을 대규모 언어 모델(LLM) 추론 최적화에 적용한 최초 사례로 평가된다. 먼저 저자들은 Hugging Face Transformers의 96개 하이퍼파라미터를 67개의 구체적 특징으로 정형화한 특징 모델(FM)을 구축하였다. 각 특징은 불리언 옵션이거나 이산화된 수치값을 나타내며, 상호 의존성은 교차 트리 제약으로 명시한다. 이를 통해 약 9.37 × 10¹²개의 유효 구성 공간을 논리식으로 표현하고, 자동화된 SAT 솔버를 이용해 유효 구성을 열거할 수 있다.

구성 탐색 단계에서는 두 가지 t‑wise 샘플링 알고리즘(YASA와 ICPL)과 무작위 샘플링을 병행하였다. t‑wise 샘플링은 2‑wise 커버리지를 보장해 파라미터 간 상호작용을 최소 한 번씩 관찰하도록 설계됐으며, 무작위 샘플링은 특징 수와 동등한 규모(≈96개)로 설정해 베이스라인을 제공한다. 이렇게 선택된 구성들은 실제 하드웨어(GPU NVIDIA RTX 3090, CPU Intel Xeon)에서 실행되어 에너지 소비는 RAPL 및 nvidia‑smi, 지연시간은 초당 토큰 수, 정확도는 BLEU·ROUGE·Exact‑Match 등 여러 메트릭으로 측정되었다.

수집된 데이터셋을 기반으로 저자들은 회귀 기반 머신러닝 모델(랜덤 포레스트, XGBoost)과 신경망 모델을 학습시켜, 보지 못한 구성에 대한 에너지·지연·정확도 예측을 수행했다. 교차 검증 결과, 예측 오차는 에너지 5 % 이하, 지연 3 % 이하, 정확도 2 % 이하로, 제한된 샘플만으로도 높은 예측 정확도를 달성함을 입증한다. 또한, 모델을 활용해 에너지·지연·정확도 간의 파레토 최적 프론트를 탐색함으로써, 예를 들어 온도 0.7, top‑p 0.9, beam 4 조합이 에너지 절감과 응답 속도 사이에서 최적 균형을 이루는 것을 확인했다.

핵심 기여는 다음과 같다. (1) LLM 추론 설정을 특징 모델로 공식화하고 공개함으로써 재현 가능성을 확보했다. (2) 변동성 모델링을 통해 구성 공간의 규모를 정량화하고, t‑wise 샘플링이 실제 성능 상호작용을 포착한다는 실증적 증거를 제공했다. (3) 제한된 실험 데이터로부터 정확한 성능·에너지 예측 모델을 구축하는 파이프라인을 제시했다. 한계점으로는 현재 모델이 GPU 메모리 사용량이나 스케일링 효과를 포함하지 않았으며, 다른 추론 엔진(vLLM, TGI)과의 일반화 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 멀티‑GPU 환경, 동적 워크로드, 그리고 자동화된 최적화 알고리즘과의 연계를 모색할 예정이다.

LLM 추론 최적화를 위한 변동성 모델링 활용

초록

상세 분석

댓글 및 학술 토론

의견 남기기