추론시간 스케일링을 위한 베이지안 선형 회귀와 보상 가중 샘플링

최근 대형 언어 모델에서 학습 단계보다 추론 단계에 더 많은 계산 자원을 할당하는 전략이 효율성을 높이는 것으로 밝혀졌다. 그러나 추론 시간에 따른 성능 향상의 원리는 아직 충분히 규명되지 않았다. 본 연구에서는 추론 시간 스케일링을 분석하기 쉬운 모델로서, 보상이 선형 모델에 의해 결정되는 베이지안 선형 회귀와 보상 가중 샘플러를 도입한다. 고차원 환경에

추론시간 스케일링을 위한 베이지안 선형 회귀와 보상 가중 샘플링

초록

최근 대형 언어 모델에서 학습 단계보다 추론 단계에 더 많은 계산 자원을 할당하는 전략이 효율성을 높이는 것으로 밝혀졌다. 그러나 추론 시간에 따른 성능 향상의 원리는 아직 충분히 규명되지 않았다. 본 연구에서는 추론 시간 스케일링을 분석하기 쉬운 모델로서, 보상이 선형 모델에 의해 결정되는 베이지안 선형 회귀와 보상 가중 샘플러를 도입한다. 고차원 환경에서 결정적 등가를 이용해 사후 예측 평균과 분산에 대한 닫힌 형태식을 얻는다. 교사 모델로부터 샘플링된 학습 데이터를 가정하고, k개의 추론 샘플을 뽑아 이차 보상에 온도를 적용한 소프트맥스로 선택한다. 보상이 교사와 크게 다르지 않을 경우, 일반화 오차는 k가 증가함에 따라 단조롭게 감소한다. 그러나 최적의 추론 보상은 일반적으로 교사와 일치하지 않는다. 반면 보상이 크게 잘못 지정되면 오히려 샘플 수가 일정 수준을 넘어설 때 일반화 오차가 증가하는 유한한 최적 k가 존재한다. 고정된 k에 대해 최적의 샘플링 온도도 존재한다. 우리는 대형 언어 모델을 판정자로 활용한 실험을 통해 이러한 현상을 검증한다. 교사를 보상으로 사용하는 “best‑of‑k” 한계에서는 일반화 오차가 Θ(1/k²) 비율로 감소함을 극값 이론을 통해 증명하고, 주요 계수를 도출한다. 이 식들은 데이터 수집보다 추론 단계 계산을 늘리는 것이 이론적으로 유리한 영역을 명확히 제시한다. 마지막으로 과제 난이도가 상승할수록 추론 시간 계산의 이점이 감소함을 보인다.

상세 요약

이 논문은 대형 언어 모델(LLM)의 추론 단계에서 계산 자원을 확대하는 전략이 언제, 왜 효과적인지를 수학적으로 규명한다는 점에서 의미가 크다. 핵심 모델은 베이지안 선형 회귀이며, 여기서 보상은 동일한 선형 구조를 가진 “판정자” 모델에 의해 산출된다. 즉, LLM이 생성한 답변을 또 다른 LLM이 평가하는 상황을 수식적으로 단순화한 것이다. 고차원(특징 차원과 샘플 수가 모두 무한대로 가는) 환경에서는 랜덤 행렬 이론의 결정적 등가(deterministic equivalents)를 활용해 사후 평균과 분산을 정확히 계산할 수 있다. 이는 실험적으로 관측되는 현상을 이론적으로 뒷받침한다는 점에서 강점이다.

연구는 두 가지 주요 상황을 구분한다. 첫째, 보상이 교사 모델과 크게 차이나지 않을 때이다. 이 경우 k개의 후보 답변을 무작위로 생성하고, 이차 보상에 온도 파라미터를 적용한 소프트맥스로 최적 후보를 선택하면 일반화 오차가 k에 대해 단조 감소한다. 즉, “best‑of‑k” 전략이 무조건 이득을 준다. 그러나 흥미로운 점은 최적의 보상 함수가 반드시 교사와 동일하지 않을 수 있다는 것이다. 이는 실제 LLM‑as‑judge 설정에서 판정자가 완벽하지 않음에도 불구하고, 약간의 보정이 오히려 성능을 끌어올릴 수 있음을 시사한다.

둘째, 보상이 교사와 크게 불일치하는 경우이다. 이때는 오히려 k가 너무 커지면 오버샘플링(over‑sampling) 효과가 발생해 잡음이 증폭되고, 일반화 오차가 다시 상승한다. 따라서 유한한 최적 샘플 수 k*가 존재한다. 이 현상은 “샘플링 온도”와도 연관된다. 온도가 너무 낮으면 보상이 급격히 차별화돼 최적 후보가 편향될 위험이 있고, 온도가 너무 높으면 차이가 사라져 무작위 선택에 가까워진다. 논문은 고정된 k에 대해 최적 온도가 존재함을 증명하고, 이를 통해 실용적인 하이퍼파라미터 튜닝 가이드를 제공한다.

실험 부분에서는 실제 LLM을 사용해 “teacher‑as‑reward”와 “LLM‑as‑judge” 두 시나리오를 모두 검증한다. 특히 “best‑of‑k” 한계에서 일반화 오차가 Θ(1/k²) 비율로 감소한다는 극값 이론 기반 결과는, 기존의 1/k 감소율보다 훨씬 빠른 수렴을 의미한다. 이는 추론 단계에서 계산을 늘리는 것이 데이터 수집보다 효율적일 수 있는 정량적 근거를 제공한다.

마지막으로 과제 난이도가 증가하면 보상 함수와 교사 사이의 차이가 커지고, 따라서 추론 시간 스케일링의 이점이 감소한다는 점을 강조한다. 이는 복잡한 추론이 요구되는 실제 응용(예: 코딩, 수학 문제)에서 무조건 “more‑samples” 전략을 적용하기엔 한계가 있음을 경고한다. 전체적으로 이 연구는 추론 단계 계산 자원 배분에 대한 이론적 토대를 마련하고, 실무에서 “k‑샘플링”과 “온도 조절”을 어떻게 적용할지에 대한 실용적인 지침을 제공한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...