언제든 안전한 PAC 효율적 추론

언제든 안전한 PAC 효율적 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

대형 추론 모델(LRM)의 고비용 문제를 해결하기 위해, 저비용 모델과 고비용 모델을 온라인으로 선택적으로 라우팅하는 B‑PAC(베팅‑PAC) 방식을 제안한다. 역확률 가중치(IPS)와 슈퍼마르티니얼을 이용해 부분 피드백 상황에서도 성능 손실을 사전 지정된 ε 이하로 언제든 보장하며, 비정상적인 데이터 흐름에도 적응한다. 실험 결과, 사고 모델 사용량을 최대 81 %까지 줄이면서 손실을 사용자가 정한 수준 이하로 유지한다.

상세 분석

본 논문은 두 종류의 대형 언어 모델, 즉 정확도는 높지만 연산 비용이 큰 ‘생각 모델(think‑model)’과 빠르지만 정확도가 낮을 수 있는 ‘비생각 모델(non‑think)’ 사이를 온라인 스트리밍 환경에서 동적으로 전환하는 프레임워크를 제시한다. 핵심 아이디어는 베팅(PAC) 접근법이다. 먼저 비생각 모델이 출력한 답변에 대해 불확실성 점수 Uₜ∈


댓글 및 학술 토론

Loading comments...

의견 남기기