테스트 시점 스케일링을 위한 보상 꼬리 가이드 탐색
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 LLM의 테스트‑시점 성능을 향상시키기 위해 보상 분포의 꼬리를 추정하고, 이를 기반으로 스케일링 법칙을 예측하는 방법을 제안한다. 예측된 스케일링을 활용한 Scaling‑Law Guided (SLG) 탐색 알고리즘은 동적으로 연산 예산을 할당해 기존 Best‑of‑N 전략보다 적은 비용으로 더 높은 기대 보상을 얻는다. 이론적으로는 무한히 작은 후회를 보이며, 실험에서도 다양한 모델과 보상 함수에 대해 일관된 개선을 확인한다.
상세 분석
이 연구는 테스트‑시점에서 LLM이 생성하는 다수의 후보 답변 중 최적을 선택하는 Best‑of‑N (BoN) 전략의 한계를 체계적으로 분석한다. BoN은 단순히 N개의 샘플을 무작위로 생성하고 가장 높은 보상을 가진 답변을 선택하지만, N과 기대 보상 사이의 정확한 관계가 불명확하고, 연산 예산이 제한된 상황에서 비효율적이다. 논문은 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 보상 분포의 상위 꼬리를 가우시안 형태로 가정하고, 소수의 샘플(m ≪ N)만으로 꼬리의 평균·분산을 추정한다. 이를 통해 “꼬리‑가이드” 방식으로 V_N(s) = E
댓글 및 학술 토론
Loading comments...
의견 남기기