인퍼런스 시간 스케일링을 위한 확률적 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)의 추론 단계에서 다수의 후보 답안을 병렬로 생성하고 최적의 답을 선택하는 “Best‑of‑N” 방식에 확률론적 근거를 부여한다. i.i.d. 가정 하에 검증 점수의 분포를 모델링하고, 목표 정확도와 신뢰 수준을 만족하기 위한 최소 샘플 수의 하한을 이론적으로 도출한다. 이를 기반으로 검증 점수 분포 파라미터를 추정하는 두 가지 구현(학습 기반 및 학습‑프리)과, 실시간으로 최적 샘플 수를 결정하는 알고리즘 OptScale을 제안한다. 실험 결과, 다양한 수학 추론 벤치마크에서 토큰 사용량을 크게 절감하면서 기존 최고 성능을 유지하거나 개선한다.

상세 분석

OptScale 논문은 추론‑시간 스케일링을 확률적 최적화 문제로 정형화함으로써 기존의 경험적 휴리스틱을 근본적으로 대체한다. 핵심 가정은 각 후보 답안에 대한 검증 점수 S가 독립적으로 동일한 연속 확률분포 f_S(s|θ,q)를 따른다는 점이다. 이때 N개의 샘플 중 최대값 Y = max{s_i}의 누적분포함수는 F_Y(s) =

인퍼런스 시간 스케일링을 위한 확률적 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기