대형 언어 모델 추론 효율성 분해: 토큰 사용을 단계별로 분석

대형 언어 모델 추론 효율성 분해: 토큰 사용을 단계별로 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 추론 과정에서 토큰 사용 효율성을 세 단계로 분해한다. 먼저 정해진 토큰 예산 내에서의 완성 여부와 성공률을 기반으로 ‘완성·정확도·다변성’으로 나눈다. 이어 벤치마크 메타데이터가 제공하는 작업량 프록시를 활용해 토큰 사용을 ‘평균 언어화 오버헤드’와 ‘작업량 결합 계수’로 정규화한다. 마지막으로 추론 트레이스가 존재할 경우, 근거성, 반복성, 프롬프트 복사 등을 측정해 품질 신호와 비신호 토큰을 구분한다. 25개 모델을 CogniLoad에 적용한 실험에서 정확도와 효율성 순위가 크게 달라짐을 확인하고, 효율성 격차는 주로 조건부 정확도와 언어화 오버헤드 차이에서 비롯된다는 점을 밝혀냈다.

상세 분석

논문은 LLM 추론 효율성을 “E₀ = 1000·P(S)/E


댓글 및 학술 토론

Loading comments...

의견 남기기