마코프스케일: 추론 시 최적 순차 스케일링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 순차 스케일링을 두 상태 마코프 과정으로 모델링하여 정확도 향상 조건과 이론적 상·중·하한을 폐쇄형으로 도출한다. 이를 기반으로 최적 정지 기준을 적용한 시스템 MarkovScale을 제안하고, 3가지 LLM 백본·5개 벤치마크·20여 구성에서 기존 병렬·순차 방법을 일관히 앞선 성능을 보였다.

상세 분석

MarkovScale 논문은 순차 스케일링을 “정답(C) ↔ 오답(W)” 두 상태만을 고려하는 이산시간 마코프 체인으로 단순화함으로써, 복잡한 추론 과정을 수학적으로 정형화한다. 전이 확률 a = P(W|C)와 b = P(C|W)를 정의하고, 초기 제로샷 정확도 p₀를 포함한 전이 행렬 P를 대각화해 λ = 1 − a − b 라는 고유값을 도출한다. 이때 pᵢ = L + λⁱ(p₀ − L) 형태의 폐쇄식이 얻어지며, L = b/(a + b)는 무한 반복 시 수렴 정확도(상한)이다. 논문은 이 식을 이용해 “이득 함수” gᵢ = pᵢ − p₀ + σ 를 정의하고, σ는 검증기 노이즈·비마코프·디코딩 변동 등을 포괄하는 보강 상수로 설정한다. gᵢ의 부호에 따라 순차 스케일링이 이득, 중립, 손해 세 구역으로 구분되며, 특히 p₀ < L + σ 일 때만 스케일링이 장기적으로 정확도를 높인다는 정리를 제시한다(정리 III.1).

또한 최적 정지 시점 i*를 “정확도 τ 도달 최소 반복 횟수”로 정의하고, pᵢ 식을 대입해 λⁱ ≥

마코프스케일: 추론 시 최적 순차 스케일링

초록

상세 분석

댓글 및 학술 토론

의견 남기기