테스트시점에서 조정 가능한 보상 모델을 위한 베이지안 선호 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 보상 모델(RM)을 테스트 시점에 인‑컨텍스트 선호 시연을 통해 동적으로 조정할 수 있는 베이지안 프레임워크인 ICRM(Variational In‑Context Reward Modeling)을 제안한다. Bradley‑Terry 모델에 베타 사전분포를 적용하고, 변분 추론을 통해 후방분포를 amortized 방식으로 학습한다. 실험에서는 단일·다중 목표 설정 모두에서 인‑컨텍스트 시연 수가 늘어날수록 정확도가 크게 향상되고, RLHF 훈련에서도 검증 가능한 보상을 효과적으로 인코딩함을 보였다. 또한 KL 정규화를 이용해 과도한 최적화를 방지하고, 전역 내부 최적점 존재를 이론적으로 증명하였다.

상세 분석

ICRM은 기존 분류형 보상 모델이 훈련 후 정적으로 고정되는 한계를 베이지안 관점에서 극복한다. 핵심 아이디어는 프롬프트‑응답 쌍에 대한 선호 확률 z를 잠재 변수로 두고, 이를 Bradley‑Terry(BT) 모델의 성공 확률로 해석한다. z에 대한 사전은 Beta(α₀,β₀) 형태를 취해 Bernoulli 관측과의 공액성을 확보한다. 인‑컨텍스트 시연 C 가 제공되면, 모델 θ는 입력 (x, y_w, y_l, C) 를 받아 후방 Beta(α_q,β_q) 파라미터를 직접 출력한다. 여기서 α_q=μτ, β_q=(1−μ)τ이며, μ=σ(u_w−u_l)는 BT 확률의 로그시그모이드, τ=Softplus(s_w)+Softplus(s_l)+1은 증거량을 의미한다. 이렇게 하면 후방 평균 E

테스트시점에서 조정 가능한 보상 모델을 위한 베이지안 선호 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기