예측 스케줄링으로 효율적인 LLM 추론 시간 관리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 대형 언어 모델(LLM)의 추론 시 토큰 예산을 질의별로 동적으로 할당하는 “Predictive Scheduling” 프레임워크를 제안한다. 경량 MLP와 LoRA‑fine‑tuned 분류기를 이용해 질문의 난이도와 최적 토큰 길이를 사전 예측하고, 전체 토큰 예산을 최대 정확도를 목표로 greedy 배치 할당기로 배분한다. GSM8K 벤치마크에서 동일 토큰 비용 대비 최대 7.9% 절대 정확도 향상을 달성했으며, 중간 트랜스포머 층(12‑17)이 가장 강력한 예측 신호를 제공한다는 층별 분석 결과를 제시한다.
상세 분석
본 연구는 LLM 추론 비용이 고정 토큰 예산에 의해 비효율적으로 사용되는 문제를 해결하고자 한다. 기존의 CoT(Chain‑of‑Thought) 기반 방법은 여러 추론 체인을 생성해 정확도를 높이지만, 모든 질의에 동일한 토큰 한도를 적용하면 쉬운 질문에 과다 연산이, 어려운 질문에 연산 부족이 발생한다. 저자는 두 종류의 경량 예측기를 설계한다. 첫 번째는 각 트랜스포머 층에서 추출한
댓글 및 학술 토론
Loading comments...
의견 남기기